平均二乗誤差と確率誤差

データ数:n

データ数を入力後、「決定」ボタンを押すと、ここにデータ入力欄が生成される。


最確値(相加平均値): x
標本を母集団とみなした場合の分散: s2
標本の不偏分散: σ2
標本を母集団とみなした場合の標準偏差: s
測定値の標準偏差(平均二乗誤差): σ
測定値の標準偏差(確率誤差): ε
最確値の標準誤差(平均二乗誤差): σm
最確値の標準誤差(確率誤差): εm
平均二乗誤差の相対誤差(精度): [%]
確率誤差の相対誤差(精度): [%]
標本の分布の歪度(定義1):
標本の分布の歪度(定義2):
標本の分布の尖度(定義1):
標本の分布の尖度(定義1'):
標本の分布の尖度(定義2):



ファイル等から、コピーする場合は、
以下のテキストエリアに貼り付ける。
データは、改行毎に区切られることに注意。

データ数: n
最確値(相加平均値): x
標本を母集団とみなした場合の分散: s2
標本の不偏分散: σ2
標本を母集団とみなした場合の標準偏差: s
測定値の標準偏差(平均二乗誤差): σ
測定値の標準偏差(確率誤差): ε
最確値の標準誤差(平均二乗誤差): σm
最確値の標準誤差(確率誤差): εm
平均二乗誤差の相対誤差(精度): [%]
確率誤差の相対誤差(精度): [%]
標本の分布の歪度(定義1):
標本の分布の歪度(定義2):
標本の分布の尖度(定義1):
標本の分布の尖度(定義1'):
標本の分布の尖度(定義2):



標準偏差とは何か?

「誤差(error)」の定義は、理想的には各測定値と「真の値(true value)」との差:

であるが、言い換えれば、実際の測定では誤差が生じるので、
真の値を知ることは出来ず、従って、誤差自体も分からない。
そこで現実的には、真の値の代わりに相加平均:

を「最確値(most probable value)」として定義し、
誤差の代わりに、各測定値と最確値との差:

を「残差(residual)」として定義する。
理想 現実
真の値(true value) 最確値(most probable value)
誤差(error) 残差(residual)
これは統計用語における、「偏差(deviation)」に等しく、データの平均値からの偏り具合を表す。
これらの総和が最小となればよいだろう。しかし、残差は正と負の両方の値をとるから、
結局それらの総和はゼロとなってしまう。そこで各々の残差の二乗の総和を考える。
この方法を「最小二乗法(least squares method; mothod of least squares)」と呼ぶ。

次に、この残差の二乗の総和をデータの個数で割る。この量:

を「分散(variance)」と呼ぶ。しかし、このままでは元のデータと
次元が異なってしまうので、その(正の)平方根をとった量:

を「標準偏差(standard deviation; SD)」とする。
分散や標準偏差は、測定値のバラツキ具合を表している。
また、このs2を「標本分散(sample variance)」、
sを「標本標準偏差(standard deviation of the sample)」
の様に呼ぶことがあるが、正確には、これは標本を母集団と見なしていることによる。




標準偏差と標準誤差との関係

これまで述べたように、標本に対してはその平均値と分散を求めることができる。
しかし、最確値は真の値ではないのだから、最確値が真の値にどれほど近いのかを考える必要がある。
そこで、平均値を中心とした測定値の分布と、
複数の平均値の平均値を中心とした平均値自身の分布を考え、前者の標準偏差をσ
後者の標準偏差を「標準誤差(standard error; SE)」:σmとして定義する。
標準偏差
(standard deviation; SD)
標準誤差
(standard error; SE)
各測定値の信頼性 最確値(平均値)の信頼性
そして、後者の分布において、平均値の抽出を無数に繰り返したとき、
分布の中心が真の値に一致すると仮定する。

まずは、最確値と真の値との差をEとすると、

となるので、これを二乗すると、

と表せる。続いて、分布全体に対して平均をとると、


ここで、次式の関係:

が成り立つから、σσmの定義より、

という関係式が導かれる。




母集団と標本との関係

先程、標本に対して分散や標準偏差を求めたが、
これは標本の平均値に対する各測定値の信頼性を表しているに過ぎない。
では、真の値に対する各測定値の信頼性を見積もるにはどうしたらよいだろうか。
誤差と残差の関係は、最確値と真の値との差:Eを用いて、

と表されるので、母分散σ2の定義から、

となるので、sの定義及びσmの定義より、

という関係式が導かれる。ここで、s2を代入すればσは、

と表される。このσ2を「不偏分散」と呼ぶが、
中には、これを「標本分散」と定義しているテキストもある。
その場合、σを「標本標準偏差」と呼ぶことになる。
母集団 標本
nで割る。 n-1で割る。
さらに、標準誤差σmの定義より、

も得られる。




平均二乗誤差と確率誤差との関係

測定結果は通常、

の形にまとめる。このとき、σmのことを平均二乗誤差と呼ぶ。
この範囲内に真の値が存在する確率は、約68%である。一方、

の範囲に、50%の確率で真の値が存在するようなεmのことを
「確率誤差(probable error)」或いは、「公算誤差」と呼ぶ。
平均二乗誤差 確率誤差(probable error)
範囲内に真の値が
約68%の確率で存在
範囲内に真の値が
50%の確率で存在

それでは、平均二乗誤差σと確率誤差εとの間には、どのような関係が成り立つのだろうか。
測定値の分布は、一般に平均値μ、分散σ2の正規分布:

に従う。標準偏差σは、分布の中心から変曲点までの距離を表す。
ここで、平均値μ=0、分散σ2=12とすると、

となる。これを標準正規分布と呼ぶ。正規分布及び標準正規分布は、
平均値を中心に、軸に左右対称の釣り鐘型の分布であるから、確率誤差の定義より、

を満たすaを求めればよい。標準正規分布表から逆算してやるなどすると、

という値を得る。従って、平均二乗誤差σと確率誤差εとの関係は、

となる。標準誤差に関しても、平均二乗誤差と同様に、

と導かれる。




絶対誤差と相対誤差

平均二乗誤差にせよ、確率誤差にせよ、
その値の大小だけでは、測定値の精度を決めることは出来ない。
対象となる測定値に対して、どの程度の誤差なのかが、問題となるからである。
単なる平均二乗誤差や確率誤差の値を「絶対誤差」と呼ぶのに対し、
それを測定値の最確値(平均値)で割った値を「相対誤差」と呼ぶ。
或いは、「相対誤差」は測定値の「精度」を表すので、単に「精度」とも呼ばれる。
即ち、測定値の最確値(平均値)がZで、 その絶対誤差がΔZである場合、その相対誤差(精度)は、
ΔZ

Z
で与えられる。




直接測定と間接測定

定規やノギスなどで、長さを直接測ったり、電気回路で電流計や電圧計を用いて、
電流や電圧を直接測定するような測定を「直接測定」と呼ぶ。
これに対し、縦、横、高さの長さを測り、掛け算によって体積を求める場合や、
電流と電圧を測り、割り算で回路の抵抗を求める測定を「間接測定」と呼ぶ。




間接測定による誤差伝播

直接測定で、測定値を求め、誤差を算出したとしても、
そのことは、各々の物理量の全てについて当てはまるから、
間接測定による最終的な物理量の誤差をどう見積もるかという問題が生じる。
ここでは、間接測定による物理量Zが、直接測定による物理量A及びBに対し、
その二変数関数:ZZ(A,B)として与えられる場合に焦点を絞るが、
多変数関数に対する場合に関しても、同様の議論が適用される。
さて、間接測定:ZZ(A,B)による誤差伝播は、

で与えられる。これは、f(x,y)の全微分:

と似ているが、全ての項が二乗されている点を喚起しておく。
代表的な関数Z(A,B)に関して、次表にまとめた。
加法と減法の場合は、一つにまとめて表すことが出来る。
他の関数は、相対誤差の形で表せるものが多い。

間接測定Z(A,B) 誤差伝播ΔZ
A±B
A×B
A÷B
An
lnA
eA



歪度と尖度

歪度(skewness)は分布の偏りを表す。
分布が左右対称であれば、歪度は0となる。
左に裾が長い(右に山がある)場合は歪度が負になり、
右に裾が長い(左に山がある)場合は歪度は正になる。
歪度:a3は次式で表される(定義1)。

但し、Excel等では、次式が用いられる(定義2)。

尖度(kurtosis)は分布の尖り具合(裾の長さ)を表す。
山が平らで、裾が短ければ尖度は小さくなり、
山が尖っていて、裾が長ければ尖度は大きくなる。
正規分布では尖度は3となる。
尖度:a4は次式で表される(定義1)。

正規分布の尖度を0とする為、
その値から3を引いた値を尖度とすることもある(定義1')。

但し、Excel等では、次式が用いられる(定義2)。

この場合、正規分布の尖度が0となる。




まとめ

平均二乗誤差 確率誤差
標準偏差
標準誤差

Shadow Academy トップへ戻る

inserted by FC2 system