一年一度的程序员节来啦,当然大家期待的 10·24征文活动也随之而来喽!
“办公小浣熊”是基于商汤大语言模型的大模型原生数据分析产品,可通过用户的自然语言输入,自动将数据转化为有意义的分析和可视化结果。办公小浣熊支持复杂表格、多表格、多文件的理解,可以完成数据清洗、数据运算、比较分析、趋势分析,预测性分析、可视化等常见数据分析任务,赋能财务分析、商业分析、销售预测、市场分析、宏观分析等多个应用场景。
一、前言:
数据分析是指对收集来的大量数据进行分析,提取有用信息和形成结论,需要有目的性地收集数据、分析数据,使之成为信息的过程,数据分析的目的是把隐藏在一大批看似杂乱无章的数据中的信息集中和提炼出来,以找出所研究对象的内在规律,为决策者提供决策的依据。
数据分析是一种以系统性的方法解释、分析和评估数据的过程,旨在揭示数据背后的趋势、模式和关联,以从中获得有价值的见解和洞察力,这个过程通常涉及使用各种统计和逻辑技术,包括数据挖掘、机器学习、可视化和预测建模等。
销售数据分析是商业领域中非常重要的活动,能够帮助企业了解销售趋势、优化销售策略以及制定未来的销售计划。数据分析通常涉及收集、清理、转换、建模和解释数据以提取有用的信息和洞察,比如在企业内部经常会有这些数据分析的需求:
- 业务人员:个人的销售数量、销售的业绩
- 业务主管:需要使用Excel大量的函数计算团队的销售整体数量,使用Excel的图表工具,生成各种类型的图表,如柱状图、折线图、饼图等,可以快速分析销售数据的变化趋势、销售额的分布情况等。
- 销售助理:通过透视表,可以对销售数据进行分类汇总、交叉分析等,进一步揭示销售数据中的规律和潜在问题,报表功能来获取需要数据量化成果用于会议讨论。
大数据和人工智能时代,数据分析是个热门话题,很多业务人员门外汉人员,面对浩Excel这种知识与技术,也搞不清该从哪里开始,于是,经常在工作当中有人询问关于报表需求的问题,让我们今天来关注“一站式商汤自研大语言模型的智能助手” - 小浣熊家族AI办公助手,人人都可以用更高效的数据分析助手来提高生产力了!
1. Excel时代:
Excel是一个强大的电子表格程序,广泛用于数据存储、整理和分析。它提供了丰富的功能,如数据透视表、图表、公式和函数,使得数据分析变得简单而高效。
2. BI报表时代:
商业智能(Business Intelligence)工具,是一套完整的解决方案,用于将企业中现有的数据进行有效的整合、分析和可视化,从而快速准确地提供报表和决策依据,帮助企业做出明智的业务经营决策。
2. AI大模型时代:
Raccoon是基于商汤自研大语言模型的智能助手,包含代码助手、办公助手,满足用户代码编写、数据分析、编程学习等各类需求,有了数据分析助手,人人都可以提高办公生产力。
二、小浣熊家族AI办公助手:
随着科技发展越来越快,人工智能(AI)已经成为推动各行各业进步的关键力量,“商汤科技”作为全球领先的AI公司之一,最近推出了一款名为“小浣熊家族(Raccoon)”的AI智能办公助手,是一款办公场景设计的、集成了人工智能技术的助手应用。旨在彻底改变我们对编程和办公的认知,本文将深入探讨这款产品的核心技术和功能,以及它如何帮助用户提高效率和创新能力。
小浣熊家族是基于商汤科技自研的大型语言模型开发的,它不仅仅是一个简单的工具,而是一个全面的解决方案,涵盖了代码编写、数据分析和编程学习等多个领域。这个智能助手的核心优势在于其强大的AI能力,能够为用户提供实时的编程辅助、数据分析和决策支持。
1. 代码助手:编程的的“钢铁侠”:
小浣熊家族的代码助手,可以通过AI代码智能生成、代码智能翻译和代码智能重构等技术,极大地简化了编程工作,同时,可以能够理解用户的编程意图,自动生成高质量、高性能的代码片段,甚至智能的提供代码解决方案。
-
多种编程语言支持,助力高效开发 支持 Python、C#、C/C++、Java、 Go、JavaScript 等多种主流编程语言。
-
多种 IDE 支持,提供无缝开发体验 支持 VS Code、Android Studio、JetBrains 全系列 IDE。
2. 办公助手:数据智能分析,洞悉商业价值
“办公小浣熊”是一款可以帮助快速进行文档处理、数据清洗、运算、分析生成可视化图表等能力的一款 AI 智能一站式办公软件,通过办公小浣熊,只需要提供用到的数据,包括但不限于文件(xlsx、xls、csv、txt、json等格式的数据报表)、信息、图表、报告等,办公小浣熊可以以对话的方式帮分析出想知道的任何数据信息。
三、小浣熊家族AI办公助手从零到壹最佳实践:
从业务助理那里要了一份近期的销售订单情况,来看看实际场景中是否能帮助我们来加快数据分析。通过对数据的深入挖掘和分析,团队可以更好地理解市场趋势、客户需求和竞争对手的动态:
- ①. 进行用户画像,最近销量比较受欢迎的订单,最受欢迎的产品是什么?
- ②. 了解各个部门的销售业绩排名,销量低的原因是什么?所在地区出现竞品吗?
- ③. 结合销售的业绩情况,可以对于进销存的备货(临采,备采)进行有效的预警、预测与趋势分析。
…等等
1. 本地上传销售的数据源:
销售订单数据源是csv格式,大小是10.8Mb左右,包括订单ID、订单编号、下单时间、购买者ID、购买者昵称、购买者联系电话、商品分类、下单渠道、下单方式、消费金支付等状态等27个字段。
通过上传“订单全数据.csv”来针对这个文件,通过数据分析的智能体,通过“商汤自研大语言模型”强大的意图理解能力、分析建模能力和洞察力,进行自主的利用统计科学、机器学习等高级建模技术从数据中深入挖掘,从而提供分析观点的结论。
- ①. 点击“选择本地文件”,可以上传本地的文件,支持的文件格式比较多,这里使用csv格式数据源
- ②. 可以显示订单csv格式的数据上传进度,速度也比较快。
- ③. 当文件上传后,可以看到右侧可以显示前99数据,但是发现这种比较宽的表预览速度还是比较快的。
2. 数据运算场景一:查询一下多少个商品类型,分别是什么?
通过对话式提问,来响应询问的问题,并且通过python语言来进行数据运算和数据清洗。
(1). 提问一:帮我查一下有多少个商品类别?
# 重新加载原始数据
data = pd.read_csv(file_path)
# 查找商品类别列的唯一值数量
unique_product_categories = data['商品分类'].nunique()
unique_product_categories
- ①. 可以看到是使用python的语言来做代码分析。
- ②. 从代码上来看自动联想到Excel中“商品分类”这个栏位,并且使用nunique()函数查找唯一值,即每个唯一值只出现一次。
(2). 提问二:这几个不同的商品类别分别是什么?
# 查找商品类别列的唯一值
unique_product_categories_list = data['商品分类'].unique()
unique_product_categories_list
- ①. 可以看到上下文环境是共享的,询问的问题是基于上面上传的数据源,且会联想上面询问的。
- ②. unique()函数是用于去除数组中的重复元素并进行排序。
- ③. 通过Excel的搜索功能,来实际看一下生成的结果对不对,从Excel中可以看到,确实是3种分类,而且分类的名称也是能对应上,结果完美匹配。
3. 数据运算场景二:帮我计算一下2024年的销售额?
上传的csv数据源后,提问“帮我计算一下2024年的销售额”,通过商汤自研SensNova大模型进行分析后,列出了详细的操作细节,可惜的是,最终给出的计算结果是不正确的,跟我来一步一步分析,看看到底是什么原因?
(1). AI大模型梳理的数据分析过程:
# 首先,我将导入必要的库并加载数据文件以查看其内容。
import pandas as pd
# 加载CSV文件
file_path = '/mnt/data/订单全数据.csv'
data = pd.read_csv(file_path)
# 显示数据的前几行以了解其结构
data.head()
数据已成功加载,但表中似乎存在一些列的数据类型不一致。为了计算2024年的销售额,我将首先提取与订单金额和销售日期相关的列,然后筛选出2024年的订单,最后计算这些年份的总销售额。
说明:
- ①. 通过商汤SensNova大模型体系加载数据源,分析数据结构,看看是否有问题。
- ②. 梳理一个大致数据分析、运算逻辑的步骤,这跟写代码的思路是一样的,先要了解功能需求是什么?产出的结果是什么?需要哪些方案?
接下来,我将执行以下步骤:
- 确定与订单金额和销售日期相关的列。
- 转换日期列以确保其格式正确。
- 筛选出2024年的订单。
- 计算2024年的总销售额。
现在,我将开始执行这些步骤。
说明:
- ①. 上述比较类似程序员的思考逻辑,首先生成伪代码逻辑,后面按照大模型的思路来使用python代码执行一步一步执行。
- ②. 从方向上确认这些步骤都是没有问题的。因为写代码也是按照这样的思路来进行的。
# 确定与订单金额和销售日期相关的列
# 从数据的前几行可以看出,"下单时间"列可能包含日期信息,但我们需要找到表示订单金额的列。
# 我们将检查列名以找到可能表示订单金额的列。
# 显示所有列名以找到可能的订单金额列
column_names = data.columns
column_names
根据列名,我们可以推断以下几点:
- “下单时间” 列可能包含订单的日期信息。
- “商品总价” 列可能表示每个订单的总金额。
说明:
- ①. 通过商汤SensNova大模型体系可以自动分析出来,需要使用“下单时间”和“商品总价”这2个关键的字段来生产结果。
- ②. 即查找下单时间为2024年的订单,然后将“商品总价”进行加总即可得到结果。
(2). AI大模型梳理的数据清洗与数据运算的过程:
接下来,我将执行以下操作:
- 转换 “下单时间” 列为日期格式。
- 筛选出2024年的订单。
- 计算 “商品总价” 列中2024年订单的总和。
现在,我将开始执行这些步骤。
# 转换 "下单时间" 列为日期格式
data['下单时间'] = pd.to_datetime(data['下单时间'], errors='coerce')
# 筛选出2024年的订单
data_2024 = data[data['下单时间'].dt.year == 2024]
# 计算2024年的总销售额
total_sales_2024 = data_2024['商品总价'].sum()
total_sales_2024
2024年的总销售额计算完成,但由于数据格式的问题,结果显示为一系列带有货币符号的金额。我将进一步处理这些数据以提供一个清晰的数值总和。
说明:
- ①. 数据清洗的过程:因为下单时间的格式不是规范的数据格式(Excel认识,但是计算机代码可能不认识),所以,需要进行数据的清理转换为统一可识别的格式。
- ②. 数据运算的过程:再将下单时间为2024年的订单刷新出来,再进行数据的运算,将销售的总价全部进行累加。
- ③. 但是这里商汤SensNova大模型有识别到一个问题所在,就是在“商品价格”字段中发现有带货币符号的金额,所以,需要进行纯数字的转换,才能进行number类型的数字累加。
# 由于结果显示为一系列带有货币符号的金额,我们需要进一步处理这些数据以提供一个清晰的数值总和。
# 我们将尝试提取数值并计算总和。
# 尝试将商品总价列转换为数值类型
data['商品总价'] = pd.to_numeric(data['商品总价'].str.replace('[^\d.]', ''), errors='coerce')
# 再次计算2024年的总销售额
total_sales_2024 = data_2024['商品总价'].sum()
total_sales_2024
说明:
转载自CSDN-专业IT技术社区
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/m0_68635815/article/details/143191595