重回帰分析とは、複数の変量のうち1つの変量に着目し、
その変量が他の変量によってどのように左右されるかを分析する手法である。
売上高の様に、分析の対象となる変量を「目的変量」という。
また、その目的変量の取る値がどのように決まるかを
説明する為に用いられる変量を「説明変量」という。
一般に説明変量は幾つ使ってもよい。ちなみに、変数が2種類だけでなく
3種類以上ある一般の場合を対象にした重回帰分析に対し、
2種類の変量を対象にした場合を単回帰分析という。
目的変量をz 、説明変量をx 、y とする。
「最小二乗法による線形回帰」の記事で述べた様に、
z とx 及びz とy に対して、回帰直線:
の関係で表すことができる。
では、x とy が同時に変化するとしたとき、
目的変量z はどのように変化するであろうか。
このとき、z とz の平均との差は、
x とx の平均との差ならびにy とy の平均との差に
それぞれ比例して変化すると考え、それらの変化を加え合わせた分だけ
z とz の平均との差が変化するとしよう。即ち、
と表すことができる。ここで、
と置くと、
の様に書き換えられる。これを「重回帰式」という。
i 番目の残差:
をそのまま合計すると必ず0に等しくなり、役に立たないので、
残差の二乗の合計をS と置き、残差の二乗(平方)の合計(和)という意味で、
S を「残差平方和」という。残差の式に、定数項を代入すると、
の様に書き直される。従って、残差の二乗:di2は、
となる。残差平方和S は、
と計算される。ここで、x の分散、y の分散、z の分散をそれぞれ、
データを母集団とみなす場合、
データを標本とみなす場合、
と表すことにする。また、xとyの共分散、
xとzの共分散、yとzの共分散をそれぞれ、
データを母集団とみなす場合、
データを標本とみなす場合、
と表すことにする。これらの分散・共分散を使って、残差平方和S は、
と書き直すことが出来る。
次に、この残差平方和S をa とb に対し、それぞれ偏微分する。
偏微分とは、微分する数(ここではa やb)以外を定数と見なして微分することである。
S はa,b に対して最小値をとるのだから、それらの偏導関数は当然ゼロでなくてはならない。
これを行列を用いて書き直すと、
の様に表せる。ここで、クラメル(Cramer)の公式より、
説明変量間に強い相関がある時、回帰係数の符号が予想に反することがある。
これを「多重共線性(multi-collinearity)」またはマルチコと呼ぶ。
説明変量が多くなると、マルチコがそれだけ起きやすくなるので、
説明変量間の相関が強くないかどうかを確かめながら、説明変量を選ぶ必要がある。
各相関係数に関しては、「最小二乗法による線形回帰」の記事で述べた通り、
で与えられる。