一、描述性统计分析
明确性适用
1.文字描述
9 月份网站的日均访问人次为 41,072.87 次,标准差为 5,685.52,最少的一次访问量为 30,471 次,该月中有四分之一天数的每天访问人次在 36791.5 次以下,该月中有一半天数的每天访问人次在 42,529 次以下,该月中有四分之三天数的每天访问人次在 44,643.25 次以下,全月中最多的一次访问量为 49,847 次。需要注意的是,表格中的下四分位数即统计学意义的 25% 分位点,上四分位则为统计学意义的 75% 分位点。
页面访问量PV,用户访问量UV
9 月份网站的日访问量(PV)数据,用了统计学里 7 个最基础的指标来描述数据的整体情况。
2.图形描述
二、探索性统计分析
推测性适用
1.散点图
线性,非线性,无相关

2.箱形图
对比样本差异,识别数据中异常:同等舱内票价是否有差异

分析:
横轴表示乘客的票价,纵轴表示男女性别,在两个箱线图的中间箱体部位都有一个明显的分界线,它是中位数(一种用于描述数据的中心化指标,即理解为整体水平)。
从图中可知,两个箱线图的中位数并没有近似垂直对齐,说明男女乘客的票价存在显著差异。
而且从图的最右侧,也发现了一些样本点,它们就是利用箱线图技术识别出的异常点。
很显然,这是通过图形的对比,得出两者存在差异。
3.百分比堆叠条形图
对比内部比例变化

分析:
横轴代表2014—2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。
借助于百分比堆叠条形图,可以非常直观地发现移动端的交易量在迅速扩张(即随着移动互联网的发展,用户越来越青睐于选择移动端完成网上的交易),
由2014年第一季度的11.7%,发展到2016年第四季度的85.5%,短短的三年时间,发生了翻天覆地的变化。
三、推断性统计分析
1.t检验
推断两样本之间的均值是否存在差异
充电宝电容量抽样数据,检验该充电宝是否满足5000毫安容量
工具:Python

(1)提出原假设与备择假设
H0:样本均值为5000毫安容量
H1:样本均值不为5000毫安容量
(2)计算统计量

(3)结果
统计量为-0.694,单从该统计量的值,并不能直接得出样本是否满足均值为 5000 毫安的说法,所以需要进一步比较概率 P 值。
对比概率 P 值,下结论
pvalue=0.5019915686890506
结果显示,概率 P 值为 0.502,大于 0.05 的阈值,说明不能拒绝原假设,即认为样本均值为 5000 毫安的说法是正确的,也就是说该品牌的充电宝符合其宣传的电容量 5000 毫安的说法。
2.卡方检验与 Pearso 相关性检验
推断样本的两个属性是否不相关
3.Shapiro 正态性检验
推断样本是否服从正态性分布
转载自CSDN-专业IT技术社区
原文链接:https://blog.csdn.net/2401_82506219/article/details/160830631



