描述统计学基础

statistics

描述统计学基础

描述统计是用来描述收集的数据,如数据的集中趋势度量、离散程度度量、分布形状和异常值,可以通过绘制数据图获得更好的理解。

分析数值数据

  • 集中趋势测量 Center
  • 离散程度测量 Spread
  • 数据的形状 Shape
  • 异常值 Outliers

集中趋势测量

常见三大方法:

  • 均值 Mean
  • 中位数 Median
  • 众数 Mode

均值

亦称为平均数期望值

均值 = 所有值相加 / 所有测量值的个数

mean = sum (all value) / how many data points

Warning

均值并非始终适合测量集中趋势的最佳方法,如数据集中存在个别的一场异常值

中位数

将我们的数据分为两部分,中位数使数据集中 50% 的值低于它,50% 的值高于它。

计算中位数步骤:

  1. 将数据排序
  2. 若数据集个数为奇数,则中位数就直接等于中间的数值; 若数据集个数为偶数,则中位数就使中间两个值得平均值
Warning

中位数来描述数据集集中趋势准确性,很大程度上取决于我们数据集的形状以及是否有任何异常值

众数

数据中出现次数最多的数据值。一个数据集中可能有多个众数,也可能无众数 当数据集中所有值出现的频数相同,不存在众数

分析分类数据

分类数据一般查看每组的独立个体的数量或比例


Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes