假设有一组数据有\(n\)个观测值\([x_1,x_2, \dots , x_n]\),求该组数据的方差和标准偏差。
思路:先求平均值再求方差和/或标准差
首先求平均值 \(\bar{x}\):
一般在文献中用缩写SD(Standard Deviation)表示,或者小写的\(\sigma^2\)或\(s^2\),见下面说明。
方差又分总体方差(符号:\(\sigma^2\))和样本方差(符号:\(s^2\))
也就是你所获得的数据已经包含研究对象所有的样本,比如一个班全部学生的某一科成绩,这时方差等于样本中每个值减去平均值后的平方相加的总和再除以样本数\(n\):
样本方差是指所获的数据只是总体一部分,称为一个样本,并使用该样本去代表/预测总体的情况。比如上面的例子中仅选择前三排学生的成绩。这时,方差等于等于样本中每个值减去平均值后的平方相加的总和再除以\((n-1)\):
基于以上,我们还能得到一个总体方差和样本方差之间的关系:
即根据样本方法估计总体方差。
对于样本,我们在公式中使用(\(n - 1\)),因为使用\(n\)获得的会是一个始终低估变异性的有偏估计。样本方差会小于总体方差。
将样本\(n\)减少到 (\(n - 1\)) 会人为地使方差变大,从而获得一个对变异性的无偏估计:优先选择高估而不是低估样本中的变异性。
需要注意的是,用标准差公式做同样的事情并不会得到完全无偏的估计。因为平方根不是像加减那样的线性运算,所以样本方差公式的无偏性不会传递到样本标准差公式。
基于以上方差的计算,标准差就简单多了,只需对对应方差开方就行了。
或称标准偏差或称标准方差,等于总体方差开方(当然,取正数):
无偏样本标准差就是使用样本方差(\(s^2\))计算的标准差(\(s\)):
标准差由方差推导而来,是方差的平方根,其含义是:平均而言,每个值离均值有多远。
这两种度量都反映了分布的可变性,但它们的单位不同:
由于方差的单位远大于数据集典型值的单位,因此很难直观地解释偏离的量。这就是为什么标准偏差通常被首选作为可变性的主要衡量标准的原因。
然而,方差比标准差能提供更多关于可变性的信息,它用于进行统计推断。