みさご解体新書

分散

解説/アルゴリズム

データ x1,x2...,xnx_1,x_2...,x_n平均μ\mu 、各数値 xix_i と平均 μ\mu の差、すなわち、 xiμx_i-μ を、 xix_i偏差としたとき、各数値 xix_i の偏差をそれぞれ二乗した値の平均を分散と呼ぶ。

分散をVで表すとき、 V=(x1μ)2+(x2μ)2+...+(xnμ)2nV = \dfrac{(x_1-μ)^2+(x_2-μ)^2+...+(x_n-μ)^2}{n} になる。

式の変形

V=(x1μ)2+(x2μ)2+...+(xnμ)2nV = \dfrac{(x_1-μ)^2+(x_2-μ)^2+...+(x_n-μ)^2}{n}

の右辺の分子を展開すると、

V=(x12+x22+...+xn2)2(x1+x2+...xn)μ+nμ2nV = \dfrac{({x_1}^2+{x_2}^2+...+{x_n}^2)-2(x_1+x_2+...x_n)μ+nμ^2}{n}

平均値の式の変形である nμ=x1+x2+...xnn \mu = x_1+x_2+...x_n を利用すると、

V=(x12+x22+...+xn2)2nμ2+nμ2nV = \dfrac{({x_1}^2+{x_2}^2+...+{x_n}^2)-2nμ^2+nμ^2}{n}

同類項をまとめて、

V=(x12+x22+...+xn2)nμ2nV = \dfrac{({x_1}^2+{x_2}^2+...+{x_n}^2)-n \mu ^2}{n}

後ろの項 nμ2n\dfrac{-n \mu^2}{n} を切り離して約分すると、

V=(x12+x22+...+xn2)nμ2V = \dfrac{({x_1}^2+{x_2}^2+...+{x_n}^2)}{n}-μ^2

いいかえると、

V=(x12,x22,...,xn2の平均値)(x1,x2,...,xnの平均値)2V = ({x_1}^2, {x_2}^2, ..., {x_n}^2 の平均値) - (x_1, x_2, ..., x_n の平均値)^2

になる。

つまり、データの各値を二乗したものの平均値から、各値の平均値の二乗を引いても分散の計算が可能になる。