抽样分布
抽样分布 sampling distribution 是样本(统计)量的分布(从总体中抽取不同的样本,相应的统计量会不同,由抽样造成了该统计量按一定规律的比例分布)
- 抽样分布均值:经过
n
次抽样后,统计量的平均值 - 抽样分布以初始参数值为中心
- 增加样本容量大小,抽样分布降低了方差
- 样本平均数抽样分布的方差等于初始数据方差除以样本容量,即对于随机变量 ,和方差 ,那么 的分布 (样本平均数的抽样分布) 方差为 (其中
n
为样本容量,即每次抽样中抽取的数量) - 这也同样适用于样本平均数方差
- 增加样本容量,会降低置信区间的宽度。相应地增加置信度 (如
95%
增加到99%
) 会增加置信区间的宽度。
- 样本平均数抽样分布的方差等于初始数据方差除以样本容量,即对于随机变量 ,和方差 ,那么 的分布 (样本平均数的抽样分布) 方差为 (其中
抽取样本
一般使用自助法/自展法(bootstrap)即放回抽样进行样本的抽取。无论选择多少次,数据集中任何数字的概率保持不变。
- 使用函数
np.random.choice(ndarray, size=n)
从总样本ndarray
中抽取数量为n
的元素作为样本。 - 使用方法
df.sample(n, replace=True)
进行有放回抽样,其中参数n
表示返回的样本数
其中参数默认值 replace=True
表示使用自助法(即有放回抽样),修改参数 raplace=False
则可进行无放回抽样(注意抽样数量应少于总体元素数量)
自助法是布拉德利·埃弗龙 (Bradley Efron)发明于1979年,可查阅 Explaining to laypeople why bootstrapping works 进行了解
构建样本平均值的抽样分布
- 进行大量循环抽取样本的操作
- 计算每次抽取所得样本的平均数,并使用列表存储起来
- 使用函数
plt.hist(mean_list)
作出抽样分布图
python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
coff_means = []
for _ in range(10000):
bootsamp = sample_data.sample(200, replace = True)
coff_mean = bootsamp[bootsamp['drinks_coffee'] == True]['height'].mean()
coff_means.append(coff_mean)
大数定理
大数法则表示随着样本容量增加,样本平均数越来越接近总体平均数
中心极限定理
中心极限定理表示样本容量足够大,样本平均数的抽样分布越接近正态分布(但是在多个样本平均数情况下,它才为真)
中心极限定理应用于常见的统计量中:
- 样本平均数
- 样本概率
- 样本平均数的差异
- 样本比例的差异
注意:中心极限定理也可用于其他统计量,但不能应用于所有统计量,如
- 方差 的抽样分布(服从卡方分布)
- 相关系数 的抽样分布
- 数据集中最大值 的抽样分布
通过上述两个重要的数学定理可以使用统计量去估算参数