「誤差(error)」の定義は、理想的には各測定値と「真の値(true value)」との差:
ei =xi -X
であるが、言い換えれば、実際の測定では誤差が生じるので、
真の値を知ることは出来ず、従って、誤差自体も分からない。
そこで現実的には、真の値の代わりに相加平均:
を「最確値(most probable value)」として定義し、
誤差の代わりに、各測定値と最確値との差:
を「残差(residual)」として定義する。
理想 | 現実 |
---|---|
真の値(true value) | 最確値(most probable value) |
誤差(error) | 残差(residual) |
次に、この残差の二乗の総和をデータの個数で割る。この量:
を「分散(variance)」と呼ぶ。しかし、このままでは元のデータと
次元が異なってしまうので、その(正の)平方根をとった量:
を「標準偏差(standard deviation; SD)」とする。
分散や標準偏差は、測定値のバラツキ具合を表している。
また、このs2を「標本分散(sample variance)」、
sを「標本標準偏差(standard deviation of the sample)」
の様に呼ぶことがあるが、正確には、これは標本を母集団と見なしていることによる。
これまで述べたように、標本に対してはその平均値と分散を求めることができる。
しかし、最確値は真の値ではないのだから、最確値が真の値にどれほど近いのかを考える必要がある。
そこで、平均値を中心とした測定値の分布と、
複数の平均値の平均値を中心とした平均値自身の分布を考え、前者の標準偏差をσ、
後者の標準偏差を「標準誤差(standard error; SE)」:σmとして定義する。
標準偏差 (standard deviation; SD) |
標準誤差 (standard error; SE) |
---|---|
各測定値の信頼性 | 最確値(平均値)の信頼性 |
まずは、最確値と真の値との差をEとすると、
となるので、これを二乗すると、
と表せる。続いて、分布全体に対して平均をとると、
ここで、次式の関係:
が成り立つから、σとσmの定義より、
という関係式が導かれる。
先程、標本に対して分散や標準偏差を求めたが、
これは標本の平均値に対する各測定値の信頼性を表しているに過ぎない。
では、真の値に対する各測定値の信頼性を見積もるにはどうしたらよいだろうか。
誤差と残差の関係は、最確値と真の値との差:Eを用いて、
と表されるので、母分散σ2の定義から、
となるので、sの定義及びσmの定義より、
という関係式が導かれる。ここで、s2を代入すればσは、
と表される。このσ2を「不偏分散」と呼ぶが、
中には、これを「標本分散」と定義しているテキストもある。
その場合、σを「標本標準偏差」と呼ぶことになる。
母集団 | 標本 |
---|---|
nで割る。 | n-1で割る。 |
測定結果は通常、
の形にまとめる。このとき、σmのことを平均二乗誤差と呼ぶ。
この範囲内に真の値が存在する確率は、約68%である。一方、
の範囲に、50%の確率で真の値が存在するようなεmのことを
「確率誤差(probable error)」或いは、「公算誤差」と呼ぶ。
平均二乗誤差 | 確率誤差(probable error) |
---|---|
範囲内に真の値が 約68%の確率で存在 |
範囲内に真の値が 50%の確率で存在 |
それでは、平均二乗誤差σと確率誤差εとの間には、どのような関係が成り立つのだろうか。
測定値の分布は、一般に平均値μ、分散σ2の正規分布:
に従う。標準偏差σは、分布の中心から変曲点までの距離を表す。
ここで、平均値μ=0、分散σ2=12とすると、
となる。これを標準正規分布と呼ぶ。正規分布及び標準正規分布は、
平均値を中心に、軸に左右対称の釣り鐘型の分布であるから、確率誤差の定義より、
を満たすaを求めればよい。標準正規分布表から逆算してやるなどすると、
a≒0.6745
という値を得る。従って、平均二乗誤差σと確率誤差εとの関係は、
となる。標準誤差に関しても、平均二乗誤差と同様に、
と導かれる。
平均二乗誤差にせよ、確率誤差にせよ、
その値の大小だけでは、測定値の精度を決めることは出来ない。
対象となる測定値に対して、どの程度の誤差なのかが、問題となるからである。
単なる平均二乗誤差や確率誤差の値を「絶対誤差」と呼ぶのに対し、
それを測定値の最確値(平均値)で割った値を「相対誤差」と呼ぶ。
或いは、「相対誤差」は測定値の「精度」を表すので、単に「精度」とも呼ばれる。
即ち、測定値の最確値(平均値)がZで、
その絶対誤差がΔZである場合、その相対誤差(精度)は、
ΔZ |
Z |
定規やノギスなどで、長さを直接測ったり、電気回路で電流計や電圧計を用いて、
電流や電圧を直接測定するような測定を「直接測定」と呼ぶ。
これに対し、縦、横、高さの長さを測り、掛け算によって体積を求める場合や、
電流と電圧を測り、割り算で回路の抵抗を求める測定を「間接測定」と呼ぶ。
直接測定で、測定値を求め、誤差を算出したとしても、
そのことは、各々の物理量の全てについて当てはまるから、
間接測定による最終的な物理量の誤差をどう見積もるかという問題が生じる。
ここでは、間接測定による物理量Zが、直接測定による物理量A及びBに対し、
その二変数関数:Z=Z(A,B)として与えられる場合に焦点を絞るが、
多変数関数に対する場合に関しても、同様の議論が適用される。
さて、間接測定:Z=Z(A,B)による誤差伝播は、
で与えられる。これは、f(x,y)の全微分:
と似ているが、全ての項が二乗されている点を喚起しておく。
代表的な関数Z(A,B)に関して、次表にまとめた。
加法と減法の場合は、一つにまとめて表すことが出来る。
他の関数は、相対誤差の形で表せるものが多い。
間接測定Z(A,B) | 誤差伝播ΔZ |
---|---|
A±B | (ΔZ)2
=12(ΔA)2
+(±1)2(ΔB)2
=(ΔA)2+(ΔB)2 |
A×B | ![]() |
A÷B | ![]() |
An | ![]() |
lnA | ![]() |
eA | ![]() |
歪度(skewness)は分布の偏りを表す。
分布が左右対称であれば、歪度は0となる。
左に裾が長い(右に山がある)場合は歪度が負になり、
右に裾が長い(左に山がある)場合は歪度は正になる。
歪度:a3は次式で表される(定義1)。
但し、Excel等では、次式が用いられる(定義2)。
尖度(kurtosis)は分布の尖り具合(裾の長さ)を表す。
山が平らで、裾が短ければ尖度は小さくなり、
山が尖っていて、裾が長ければ尖度は大きくなる。
正規分布では尖度は3となる。
尖度:a4は次式で表される(定義1)。
正規分布の尖度を0とする為、
その値から3を引いた値を尖度とすることもある(定義1')。
但し、Excel等では、次式が用いられる(定義2)。
この場合、正規分布の尖度が0となる。
― | 平均二乗誤差 | 確率誤差 |
---|---|---|
標準偏差 | ![]() |
![]() |
標準誤差 | ![]() |
![]() |
|