抽样分布

statistics

抽样分布

抽样分布 sampling distribution 是样本(统计)量的分布(从总体中抽取不同的样本,相应的统计量会不同,由抽样造成了该统计量按一定规律的比例分布)

  • 抽样分布均值:经过 n 次抽样后,统计量的平均值
  • 抽样分布以初始参数值为中心
  • 增加样本容量大小,抽样分布降低了方差
    • 样本平均数抽样分布的方差等于初始数据方差除以样本容量,即对于随机变量 X{X},和方差 σ2{\sigma^2},那么 Xˉ\bar{X} 的分布 (样本平均数的抽样分布) 方差为 σ2n\frac{\sigma^2}{n}(其中 n 为样本容量,即每次抽样中抽取的数量)
    • 这也同样适用于样本平均数方差
    • 增加样本容量,会降低置信区间的宽度。相应地增加置信度 (如 95% 增加到 99%) 会增加置信区间的宽度。

抽取样本

一般使用自助法/自展法(bootstrap)即放回抽样进行样本的抽取。无论选择多少次,数据集中任何数字的概率保持不变

  • 使用函数 np.random.choice(ndarray, size=n) 从总样本 ndarray 中抽取数量为 n 的元素作为样本。
  • 使用方法 df.sample(n, replace=True) 进行有放回抽样,其中参数 n 表示返回的样本数

其中参数默认值 replace=True 表示使用自助法(即有放回抽样),修改参数 raplace=False 则可进行无放回抽样(注意抽样数量应少于总体元素数量)

自助法是布拉德利·埃弗龙 (Bradley Efron)发明于1979年,可查阅 Explaining to laypeople why bootstrapping works 进行了解

构建样本平均值的抽样分布

  1. 进行大量循环抽取样本的操作
  2. 计算每次抽取所得样本的平均数,并使用列表存储起来
  3. 使用函数 plt.hist(mean_list) 作出抽样分布图
python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

coff_means = []

for _ in range(10000):
    bootsamp = sample_data.sample(200, replace = True)
    coff_mean = bootsamp[bootsamp['drinks_coffee'] == True]['height'].mean()
    coff_means.append(coff_mean)

大数定理

大数法则表示随着样本容量增加样本平均数越来越接近总体平均数

中心极限定理

中心极限定理表示样本容量足够大,样本平均数的抽样分布越接近正态分布(但是在多个样本平均数情况下,它才为真)

中心极限定理应用于常见的统计量中:

  • 样本平均数 xˉ\bar{x}
  • 样本概率 pp
  • 样本平均数的差异 xˉ1xˉ2\bar{x}_1 - \bar{x}_2
  • 样本比例的差异 p1p2p_1 - p_2

注意:中心极限定理也可用于其他统计量,但不能应用于所有统计量,如

  • 方差 s2s^2 的抽样分布(服从卡方分布)
  • 相关系数 rr 的抽样分布
  • 数据集中最大值 x(n)x_{(n)} 的抽样分布

通过上述两个重要的数学定理可以使用统计量去估算参数


Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes