みさご解体新書

偏差

解説/アルゴリズム

データ x1,x2...,xnx_1,x_2...,x_n平均μ\mu としたとき、各数値 xix_i と平均 μ\mu の差、すなわち、 xiμx_i-μ を、 xix_i偏差と呼ぶ。

偏差自体は平均値からの相対距離なので、平均からどれだけ離れてデータが散らばっているかというのを値で確認できる。ただし、個々の値の指標としては偏差は役に立つのだが、たとえば偏差の平均を求めようとすると厄介なことになる。

偏差の平均

偏差の合計の式は、

(x1μ)+(x2μ)+...+(xnμ)(x_1-\mu)+(x_2-\mu)+...+(x_n-\mu)

となり、 xix_i を前に持っていき、 μ\mu は n 個あるわけだから、

(x1+x2+...xn)nμ(x_1+x_2+...x_n)-n \mu

と変形できる。

ここで平均値を求める式を見てみる。

μ=x1+x2+...+xnn\mu = \dfrac{x_1+x_2+...+x_n}{n}

両辺に n を掛けると、

nμ=x1+x2+...+xnn \mu = x_1+x_2+...+x_n

nμn \mu と各値の合計が等しいことがわかる。

(x1+x2+...xn)nμ=0(x_1+x_2+...x_n)-n \mu = 0

つまり、偏差の合計はかならず 0 になることがわかる。

(x1μ)+(x2μ)+...+(xnμ)=(x1+x2+...xn)nμ=0(x_1-\mu)+(x_2-\mu)+...+(x_n-\mu)=(x_1+x_2+...x_n)-n \mu=0

偏差の平均が 0 になるのでデータの散らばり度合いを確認することができない。

代わりに偏差の計算を発展させた分散標準偏差などが使用される。