数据离散程度测量

statistics

数据离散程度测量

离散程度 dispersion 测量用于告诉我们数据之间的分散程度。

常见的离散程度测量包括:

  • 极差 range:最大值和最小值之间的差值
  • 四分位差 (IQR) interquartile range
  • 标准差 standard deviation
  • 方差 variance
Warning

比较不同数据集的离散程度时所有数据必须采用相同的单位

五数概括法

五数概括法包括 5 个值:

  • 最小值: 数据集中的最小值
  • Q1\bm{ Q_1}(第一四分位数/下四分位数):排序后数据第 25% 处的值
  • Q2\bm{Q_2}(中位数):排序后数据第 50% 处的值
  • Q3\bm{Q_3}(第三四分位数/上四分位数):排序后数据第 75% 处的值
  • 最大值: 数据集中的最大值
Announce
  • 计算这些值基本上只是找到一些不同数据集的中位数
    • 第一四分位数是排序后「前一半」数据集的中位数,即数据集中有 25% 的数据小于该值
    • 第三四分位数是排序后「后一半」数据集的中位数,即该值大于是数据集中 75% 的数据
    • 计算取决于我们有奇数还是偶数个值,偶数个值时取中间两数平均值作为中位数
  • 四分位差为 Q3\bm{Q_3}Q3\bm{Q_3} 之间的差值

标准差 standard deviation

  • 定义为每个观察值与均值之间的平均差异,后数据集中每个点与均值之间的平均距离,以对比不同数据集的离散程度
  • 标准差是方差的平方根
  • 标准差是与我们的其余数据具有相同单位的度量
1ni=in(xixˉ)2\sqrt{\frac 1 n\sum\limits_{i=i}^n{(x_i-\bar x)^2}}

方差 variance

  • 方差是每个观察值与均值之差平方值平均数,以对比不同数据集的离散程度
  • 方差的单位是原始数据的平方

总体方差

1ni=in(xixˉ)2\frac 1 n\sum\limits_{i=i}^n{(x_i-\bar x)^2}

样本方差

1n1i=in(xixˉ)2\frac 1 {n-1}\sum\limits_{i=i}^n{(x_i-\bar x)^2}

相关链接:Intuitive explanation for dividing by n−1 when calculating standard deviation?

可视化数据离散程度

直方图 histogram

从直方图形状,可快速了解数据的分布

箱线图 boxplot


Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes