关注

数据分析-三种统计分析方法(案例)

一、描述性统计分析

明确性适用

1.文字描述

9 月份网站的日均访问人次为 41,072.87 次标准差为 5,685.52最少的一次访问量为 30,471 次,该月中有四分之一天数的每天访问人次在 36791.5 次以下,该月中有一半天数的每天访问人次在 42,529 次以下,该月中有四分之三天数的每天访问人次在 44,643.25 次以下,全月中最多的一次访问量为 49,847 次。需要注意的是,表格中的下四分位数即统计学意义的 25% 分位点,上四分位则为统计学意义的 75% 分位点。

页面访问量PV,用户访问量UV

9 月份网站的日访问量(PV)数据,用了统计学里 7 个最基础的指标来描述数据的整体情况。

2.图形描述

二、探索性统计分析

推测性适用

1.散点图

线性,非线性,无相关

2.箱形图

对比样本差异,识别数据中异常:同等舱内票价是否有差异

分析:

横轴表示乘客的票价纵轴表示男女性别,在两个箱线图的中间箱体部位都有一个明显的分界线,它是中位数(一种用于描述数据的中心化指标,即理解为整体水平)。

从图中可知,两个箱线图的中位数并没有近似垂直对齐,说明男女乘客的票价存在显著差异。

而且从图的最右侧,也发现了一些样本点,它们就是利用箱线图技术识别出的异常点。

很显然,这是通过图形的对比,得出两者存在差异。

3.百分比堆叠条形图

对比内部比例变化

分析:

横轴代表2014—2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。

借助于百分比堆叠条形图,可以非常直观地发现移动端的交易量在迅速扩张(即随着移动互联网的发展,用户越来越青睐于选择移动端完成网上的交易),

由2014年第一季度的11.7%,发展到2016年第四季度的85.5%,短短的三年时间,发生了翻天覆地的变化。

三、推断性统计分析

1.t检验

推断两样本之间的均值是否存在差异

充电宝电容量抽样数据,检验该充电宝是否满足5000毫安容量

工具:Python

(1)提出原假设与备择假设

H0:样本均值为5000毫安容量

H1:样本均值不为5000毫安容量

(2)计算统计量

(3)结果

统计量为-0.694,单从该统计量的值,并不能直接得出样本是否满足均值为 5000 毫安的说法,所以需要进一步比较概率 P 值。

对比概率 P 值,下结论

pvalue=0.5019915686890506

结果显示,概率 P 值为 0.502,大于 0.05 的阈值,说明不能拒绝原假设,即认为样本均值为 5000 毫安的说法是正确的,也就是说该品牌的充电宝符合其宣传的电容量 5000 毫安的说法。

2.卡方检验与 Pearso 相关性检验

推断样本的两个属性是否不相关

3.Shapiro 正态性检验

推断样本是否服从正态性分布

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/2401_82506219/article/details/160830631

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--