描述统计学基础
描述统计是用来描述收集的数据,如数据的集中趋势度量、离散程度度量、分布形状和异常值,可以通过绘制数据图获得更好的理解。
分析数值数据
- 集中趋势测量 Center
- 离散程度测量 Spread
- 数据的形状 Shape
- 异常值 Outliers
集中趋势测量
常见三大方法:
- 均值 Mean
- 中位数 Median
- 众数 Mode
均值
亦称为平均数或期望值
均值 = 所有值相加 / 所有测量值的个数
mean = sum (all value) / how many data points
Warning
均值并非始终适合测量集中趋势的最佳方法,如数据集中存在个别的一场异常值
中位数
将我们的数据分为两部分,中位数使数据集中 50% 的值低于它,50% 的值高于它。
计算中位数步骤:
- 将数据排序
- 若数据集个数为奇数,则中位数就直接等于中间的数值; 若数据集个数为偶数,则中位数就使中间两个值得平均值
Warning
中位数来描述数据集集中趋势准确性,很大程度上取决于我们数据集的形状以及是否有任何异常值。
众数
数据中出现次数最多的数据值。一个数据集中可能有多个众数,也可能无众数 当数据集中所有值出现的频数相同,不存在众数
分析分类数据
分类数据一般查看每组的独立个体的数量或比例