描述统计分析
1、描述性统计概念
描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形
2、常用指标
平均值:所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标
缺点:数据差距过大,会"被平均",得到的结论会不准确。
中位数:是指一组数据从小到大排列,位于中间的那个数。可以是一个(数据为奇数),也可以是2个的平均(数据为偶数)
四分位数:是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。能从整体描述数据集的分布状态
识别异常值用tukey’s test,
最小估计值=Q1-k*(Q3-Q1),最大估计值=Q3+k*(Q3-Q1),k=1.5中度异常,k=3极度异常
Q1:下四分位数 Q2:上四分位数
标准差:是离均差平方的算术平均数的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,能反映一个数据集的离散程度(波动大小)
标准分:表示数值在数据集中的相对位置即距离平均值多少个标准差,公式为:(数据值-平均值)/标准差。标准分为负数表示数据位于平均值之下,正数表示数据位于平均值之上。标准分与变异系数一样也不受数据单位的影响。标准分可用于根据绩效评分衡量一个员工相对自己在不同月份工作是否进步了
3.数据集分析
天猫淘宝购买婴儿商品的数据集:表1购买商品;表2婴儿信息
来源 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
表1:共有七个字段
用户ID:购买商品的用户名
商品编号:相当于商品的ID。
商品二级分类:表示商品属于那个类别
商品一级分类:商品的大类,比如将商品分为服装和饰品。
商品属性:描述商品的特点,比如大小,颜色的字符串
购买数量:表示该用户购买商品的数量。
购买时间:表示该用户购买该商品的时间
表2婴儿信息表,共有3个字段
用户ID:购买商品的用户名,不重复
出生日期:记录宝宝的出生时间,能通过此项推算宝宝年龄
性别:0代表女孩,1代表男孩,2代表宝宝性别未知
你想从该数据集中分析哪些业务问题?哪些字段有助于你解决这些问题?
1、哪些商品最受欢迎,字段:商品一级分类、商品二级分类、购买数量
2、宝宝性别、年龄与购买商品数量之间的关系,字段:用户ID、性别、年龄、商品一级分类、商品二级分类、购买数量
3、下单时间与购买数量的关系,字段:购买时间、购买数量
想得到的描述统计信息
1、宝宝年龄的平均值、四分位数及标准差
2、购买数量在不同时间的波动情况
3、购买数量的平均值,四分位数,标准差