数据异常值
异常值是明显偏离我们其余数据点的值。
异常值会对数据分析产生影响:
- 极大地影响均值和标准差等度量
- 对五数概括法中的第一四分位数、中位数、第二四分位数的影响较小
异常检测 anomaly detection
- 绘制你的数据以确定是否有异常值
- 如果无异常值,且数据遵循正态分布,使用均值和标准差来描述你的数据集;如果有偏态数据或异常值,则使用五数概括法。
Warning
检测数据是否服从正态分布,可使用
处理异常值建议
- 注意到它们的存在以及对概括性度量(单个统计数值)的影响
- 如果有拼写错误 —— 删除或改正
- 了解它们存在原因,以及对我们要回答的关于异常值的问题的影响
- 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在
- 报告时要小心,知道如何提出正确的问题