数据离散程度测量
离散程度 dispersion 测量用于告诉我们数据之间的分散程度。
常见的离散程度测量包括:
- 极差 range:最大值和最小值之间的差值
- 四分位差 (IQR) interquartile range
- 标准差 standard deviation
- 方差 variance
Warning
比较不同数据集的离散程度时所有数据必须采用相同的单位
五数概括法
五数概括法包括 5 个值:
- 最小值: 数据集中的最小值
- (第一四分位数/下四分位数):排序后数据第 25% 处的值
- (中位数):排序后数据第 50% 处的值
- (第三四分位数/上四分位数):排序后数据第 75% 处的值
- 最大值: 数据集中的最大值
Announce
- 计算这些值基本上只是找到一些不同数据集的中位数:
- 第一四分位数是排序后「前一半」数据集的中位数,即数据集中有 25% 的数据小于该值
- 第三四分位数是排序后「后一半」数据集的中位数,即该值大于是数据集中 75% 的数据
- 计算取决于我们有奇数还是偶数个值,偶数个值时取中间两数平均值作为中位数
- 四分位差为 和 之间的差值
标准差 standard deviation
- 定义为每个观察值与均值之间的平均差异,后数据集中每个点与均值之间的平均距离,以对比不同数据集的离散程度
- 标准差是方差的平方根
- 标准差是与我们的其余数据具有相同单位的度量
方差 variance
- 方差是每个观察值与均值之差的平方值的平均数,以对比不同数据集的离散程度
- 方差的单位是原始数据的平方
直方图 histogram
从直方图形状,可快速了解数据的分布