Shadow Academy トップ > 我流・物理数学 > 多変量解析 > 主成分分析


主成分分析

目次

導入
変量が2個の場合
2変量の主成分分析
変量が3個の場合
3変量の主成分分析
主軸変換による2次形式の標準化
分散共分散行列と相関行列
固有値問題の数値解法
その他の多変量解析の手法




導入

主成分分析(principal component analysis; PCA)は、
データの次元を削減するために用いられる、多変量解析の一手法で、
1901年にカール・ピアソンによって導入された。
また、人工知能(AI)の分野において、主成分分析は、
「教師なし学習」という機械学習の手法の一つでもある。

参考文献に挙げた書籍の中に、主成分分析の考え方が役に立つ例として、
遠くから煙突をみる角度によって、4本あるはずの煙突の数が
1~4本に変化する「おばけ煙突」と呼ばれている煙突の話があった。
また、もう一つの例として、マラソンのテレビ中継画面の例が挙げられていた。
真ん前から映した画面では、選手達が殆ど横一列に並んで走っているかのように見え、
順位がわかりにくいが、真横から映した画面になると、順位や選手間距離がはっきりわかり、
さらに、上空から映した画面なら、選手達の互いの位置関係は一目瞭然となるだろう。

あと、これはどの書籍で読んだのか、題名を失念したが、
屋台で提供している、綿飴に串を刺すとき、どの方向に刺すのか、
という状況では、直観的に、主成分分析を使っているのではないか、
という考察をしている書籍もあった。

ここでは、「最小二乗法による線形回帰」のときと同様、
この「最適な直線」を直観的に引くのではなく、
計算で求められないだろうか。また、その際、
主成分分析において、この「最適な直線」とは、
どのような計算で求めるのだろうか。
ここでは、導出過程及び、その結果を示す。




変量が2個の場合

第1主成分をu、第2主成分をvとし、 (x, y)→(u, v)という変換を考える。
まず、(x, y)平面におけるデータの重心を求める。
ここで、データの重心とは、相加平均:

のことに他ならない。この重心を中心に(x, y)平面で軸を回転させ、
(u, v)平面に変換する。 第1主成分:uを表す直線の方程式を

と置くと、第1主成分の各得点uiは、

となるから、これを二乗して、

となり、その平方和:

を得る。ここで、以降の計算を簡単にするため、
a2b2=1 ⇔ a2b2-1=0
という束縛条件を課すことにする。本来、abは、
比例関係を満たしさえすれば、無数の組み合わせが有り得た。

しかし、勝手に束縛条件を加えたことで、失った分の自由度を
補償してやる必要があるので、加えた束縛条件を定数倍して
引いておく(ラグランジュの未定乗数法)。即ちSを改めて、

として、このS'をa及びbで偏微分して、 各々の偏導関数がゼロとなる連立方程式:

を解けばよい。

さて、データを母集団とみなしてnで割った場合の分散のことを、
「母(集団)分散」等と呼ぶわけだが、この場合、分散・共分散は、

であり、連立方程式の両辺を2nで割って、行列を用いて書き換えると、

と表せる。この左辺の行列のことを分散共分散行列と呼ぶ。

また、データを標本とみなしてn-1で割った場合の分散のことを、
一般的には「標本分散」と呼ぶのだが、文献によっては、
先程のnで割った場合の分散のことを、「標本分散」と呼んでいる場合もあり、
紛らわしいので、ここでは明確に区別するため、「不偏分散」と呼ぶことにする。
この場合、分散・共分散は、

であり、連立方程式の両辺を2(n-1)で割って、行列を用いて書き換えると、

と表せる。この左辺の行列も分散共分散行列と呼ぶのは同様である。
但し、データ数:nが十分に大きい場合、両者の差は殆ど無い。

ここで、固有値が大きい順に、
λ1 > λ2
で、それぞれに対応する固有ベクトルが、

であるとき、全ての固有ベクトルは直交し、
第1主成分u、第2主成分vは、直線の方程式:

で表され、各々の分散が、それぞれ、固有値 λ1λ2に相当する。
これらの固有値の総和は、(x, y)の分散の総和に等しい。
また、第1主成分方向uと第2主成分方向vは、直交するので、
各主成分間同士の相関係数ruvは、必然的に、 ruv=0になる。




2変量の主成分分析

さて、変量が2個の場合、2変量の主成分分析の導出過程は上記の通り示されたが、
これらは結局何を意味しているのだろうか、その点について詳細に考察を加えたい。
まず、(x, y)平面におけるデータの重心を求めたわけだが、
これを新座標の原点として、この原点を中心に(x, y)平面で軸を回転させ、
(u, v)平面に変換したことになる。このとき、散布図上の原点から、
各々のデータを表す各点までの距離の2乗和は、この回転に対して不変量となる。

では、この(x, y)→(u, v) という変換によって、何が変わったのだろうか。
確かに、この距離の平方和は一定だが、三平方の定理によって、
回転前であれば、x成分の平方和とy成分の平方和の和、
回転後であれば、u成分の平方和とv成分の平方和の和、
としても表されるわけだが、この(x, y)→(u, v)という変換の前後で、
各軸の成分が、分担する「情報量」の割合が変わったことになる。

ここで、u成分の平方和が最大となるような、回転変換が行われる角度を発見したとしよう。
さらに、平方和をデータ数で割ったものが分散なので、「u成分の平方和が最大となる」
ということは、「u成分の分散が最大となる」とも言い換えられる。
要するに、分散は分布のもつ「情報量」を表している、といえるのである。

そして、変量が2個の場合について考えているので、
必然的に、v成分の平方和や分散は最小になる。
このように、主成分得点の分散が最大になる主成分のことを
「第1主成分」というが、変量が2個の場合、必然的に、
この「第1主成分」に直交する、「第2主成分」の得点の分散は最小になる。
或いは、そうなるように、「第1主成分」u、及び、
「第2主成分」vを決定する、という方が正確かもしれない。
※勿論、逆に、この平方和や分散が最小になる軸を仮定して、
各点から垂線を下ろし、「ヘッセの式」、或いは、「点と直線の距離の式」
と呼ばれる式を用いて、この「第2主成分」の方を先に求めてしまっても構わない。
こちらの方法も途中の式がやや複雑になるだけで、最終的な結果は殆ど同様である。

このとき、2変量(x, y)で表されていたデータを「u成分だけで表す」という、
資料の要約は有効であるか否かを判断する基準となるのが
「寄与率」という指標である。u成分の寄与率は、

  u成分の2乗和)
u成分の寄与率)=
  u成分の2乗和)+(v成分の2乗和)
と計算する。分子は分母より小さいから、寄与率は、1より小さい値になる。
u成分の寄与率が大きいとき、即ち1に近いときは、各成分の2乗和に対して、
u成分の2乗和の占める割合が大きく、v成分の2乗和の占める割合が小さくなる。
このときは、「u成分だけで表す」というデータの要約が有効であると考えてよいだろう。
即ち、回帰分析のときと同じで、2変量の資料であれば、その散布図が直線に近ければ近いほど、
主成分分析は成功し、新座標のu成分による資料の要約が有効となる。

すると、「u成分で表される情報量」と「v成分で表される情報量」の和が、
「資料の情報量」であると言い換えられるから、「u成分だけで資料を表す」ことは、
v成分で表される情報量」を損失することになる。この損失分ができるだけ
少なくなるようなuの方向が第1主成分である。逆に、2変量の資料なので、
第2主成分まで用いれば、資料の情報を取りこぼすことがない、
ということになる。従って、データ全体について、
「元の情報量の2乗和」=「新たな情報量の2乗和」+「情報損失量の2乗和」
という関係が得られる。左辺はデータが与えられたときに決まる定数なので、
「情報損失量の2乗和」を最小にすることは、「新たな情報量の2乗和」を最大にすることになる。

分散共分散行列は、偏差の平方和・積和行列をnで割った場合でも、n-1で割った場合でも、
その定数倍になっているわけであるが、いずれの場合も、固有ベクトルは変わらず、
固有値の方が1/n倍や、1/(n-1)倍になる。 また、「固有値λは主成分方向の成分の分散に等しい」ので、
逆に、この1/n倍や、1/(n-1)倍といった、定数倍部分を固有ベクトルの側に吸収させれば、
(主成分方向の成分の平方和)=(主成分方向の成分の分散)=(固有値)
という式が成り立つ。

従って、第1主成分の寄与率は、

  (第1主成分の平方和)    
(第1主成分の寄与率)=
   
  (第1主成分の平方和)+(第2主成分の平方和)    
       
  (第1主成分の分散)    

   
  (第1主成分の分散)+(第2主成分の分散)    
       
  (第1主成分の固有値)   λ1


  (第1主成分の固有値)+(第2主成分の固有値)   λ1λ2

と計算でき、第2主成分の寄与率も、
  (第2主成分の平方和)    
(第2主成分の寄与率)=
   
  (第1主成分の平方和)+(第2主成分の平方和)    
       
  (第2主成分の分散)    

   
  (第1主成分の分散)+(第2主成分の分散)    
       
  (第2主成分の固有値)   λ2


  (第1主成分の固有値)+(第2主成分の固有値)   λ1λ2
と計算できる。




変量が3個の場合

先程の場合と同様に、第1主成分をu、第2主成分をv、第3主成分をwとし、
(x, y, z)→(u, v, w)という変換を考える。
まず、(x, y, z)空間におけるデータの重心を求める。
ここで、データの重心とは、相加平均:

のことに他ならない。この重心を中心に(x, y, z)空間で軸を回転させ、
(u, v, w)空間に変換する。 第1主成分:uを表す直線の方程式を

と置くと、第1主成分の各得点uiは、

となるから、これを二乗して、

となり、その平方和:

を得る。ここで、以降の計算を簡単にするため、
a2b2c2=1 ⇔ a2b2c2-1=0
という束縛条件を課すことにする。本来、ab、及び、cは、
比例関係を満たしさえすれば、無数の組み合わせが有り得た。

しかし、勝手に束縛条件を加えたことで、失った分の自由度を
補償してやる必要があるので、加えた束縛条件を定数倍して
引いておく(ラグランジュの未定乗数法)。即ちSを改めて、

として、このS'をa及びb、及び、cで偏微分して、 各々の偏導関数がゼロとなる連立方程式:

を解けばよい。

さて、データを母集団とみなしてnで割った場合の分散のことを、
「母(集団)分散」等と呼ぶわけだが、この場合、分散・共分散は、

であり、連立方程式の両辺を2nで割って、行列を用いて書き換えると、

と表せる。この左辺の行列のことを分散共分散行列と呼ぶ。

また、データを標本とみなしてn-1で割った場合の分散のことを、
一般的には「標本分散」と呼ぶのだが、文献によっては、
先程のnで割った場合の分散のことを、「標本分散」と呼んでいる場合もあり、
紛らわしいので、ここでは明確に区別するため、「不偏分散」と呼ぶことにする。
この場合、分散・共分散は、

であり、連立方程式の両辺を2(n-1)で割って、行列を用いて書き換えると、

と表せる。この左辺の行列も分散共分散行列と呼ぶのは同様である。
但し、データ数:nが十分に大きい場合、両者の差は殆ど無い。

ここで、固有値が大きい順に、
λ1 > λ2 > λ3
で、それに対応する固有ベクトルが、

であるとき、全ての固有ベクトルは直交し、
第1主成分u、第2主成分v、第3主成分wは、平面の方程式:

で表され、各々の分散が、それぞれ、固有値 λ1λ2λ3に相当する。
これらの固有値の総和は、(x, y, z)の分散の総和に等しい。
また、第1主成分方向u、第2主成分方向v、第3主成分方向wは互いに直交するので、
各主成分間同士の相関係数ruvruwrvwは、必然的に、 ruvruwrvw=0になる。




3変量の主成分分析

やはり、3D散布図でほぼ直線状に分布している場合は第1主成分だけで表すことができる。
一方、3D散布図でほぼ平面状に分布している場合には、
第1主成分と第2主成分を用いて資料の様子をほぼ表すことができる。

2変量の主成分分析の場合と同様に、第1主成分の寄与率は、

  (第1主成分の平方和)    
(第1主成分の寄与率)=
   
  (第1主成分の平方和)+(第2主成分の平方和)+(第3主成分の平方和)    
       
  (第1主成分の分散)    

   
  (第1主成分の分散)+(第2主成分の分散)+(第3主成分の分散)    
       
  (第1主成分の固有値)   λ1


  (第1主成分の固有値)+(第2主成分の固有値)+(第3主成分の固有値)   λ1λ2λ3

と計算でき、第2主成分の寄与率も、
  (第2主成分の平方和)    
(第2主成分の寄与率)=
   
  (第1主成分の平方和)+(第2主成分の平方和)+(第3主成分の平方和)    
       
  (第2主成分の分散)    

   
  (第1主成分の分散)+(第2主成分の分散)+(第3主成分の分散)    
       
  (第2主成分の固有値)   λ2


  (第1主成分の固有値)+(第2主成分の固有値)+(第3主成分の固有値)   λ1λ2λ3
と計算できる。

3変量の資料を第1主成分と第2主成分の2変量で要約しようとするとき、
それが有効であるか否かを判定するのに役立つのが、
「第2主成分までの累積寄与率」であり、これは、

  λ1λ2
(第2主成分までの累積寄与率)=(第1主成分の寄与率)+(第2主成分の寄与率)=
  λ1λ2λ3
と計算することができる。一般にn個の変量の主成分分析の場合、
n個の主成分を全て求めることはしないで、
第1主成分から第i主成分までの寄与率を足し合わせた「累積寄与率」:
λ1λ2+…+λi

λ1λ2+… +λi+…+λn
が80%を超えたところで、主成分を求めるのをやめることが多いが、
主成分の数が多い場合は、この累積寄与率が90%を超える
ようなところまで主成分を採用する場合もある。
何故なら、主成分分析において、寄与率が低すぎると、
その主成分は全体の分散をほとんど説明できず、
役に立たないこともあるためである。

書籍であれ、サイト上の記事であれ、殆どの場合、主成分分析の説明は、
変量が2個の場合、即ち、2変量の主成分分析で説明していることが多いのだが、
2変量の資料の場合、第2主成分まで用いれば、資料の情報を取りこぼすことがない。
データの次元を削減するという観点から鑑みると、上記のように、変量が3個の場合、
即ち、3変量の主成分分析で説明した方が、より分かり易いと、筆者は感じた。

やはり、高校物理の力学でも同様に、筆者としては、
物理Ⅰに出てくるベクトルは、1次元のベクトルなので、
ベクトルだと分かり難いが、物理Ⅱの円運動以降出てくるベクトルは、
2次元のベクトルであるため、ベクトルだと分かり易いと感じた。
さらに、大学の物理学における、力学のベクトルは、
3次元のベクトルとなり、空間を平面に描画して、表現するため、
作図の手間は掛かるが、より実際の物理現象に近いだろう。

変量が3個の場合、まず、第1主成分の分散が最大になるように決める。
次に、その条件下で、第2主成分の分散が最大にすると、
必然的に、第3主成分の分散が最小になる。
これは、あくまで筆者の所感ではあるが、 先程の力学との類推アナロジーでいえば、
これは、剛体の回転運動において、「慣性モーメント(慣性能率)」が
最小となる軸を探すことにも似ている。但し、密度が一定である、
という条件が付く。逆に、密度が一定でない場合は、
データの重み付きの主成分分析の場合に似ているのではないだろうか。




主軸変換による2次形式の標準化

変数の2次の項のみからなる式を2次形式と呼ぶ。
2次形式は、ベクトルと対称行列で表せる。
行と列を入れ換えた行列のことを「転置行列」と呼ぶが、
この「転置行列」と、元の行列自身との
差が零行列になる行列を「対称行列」、
和が零行列になる行列を「反対称行列」、
積が単位行列になる行列を「直交行列」と呼ぶ。
詳細は、「パウリ行列と四元数 クォータニオン」の記事の「パウリ行列の性質」を参照。
また、上記の記事で述べたように、対象行列の固有値と固有ベクトルは
全て実数であり、全ての固有ベクトルは互いに直交する。

対称行列が固有値と固有ベクトルで対角化されることは、見方を変えると、
2次形式を標準形と呼ぶ簡単な形に書き直すことに相当している。
対角化行列は、回転と鏡映の組み合わせを表す直交行列なので、
回転と鏡映を合わせた写像であり、 行列の対角化とは、
「楕円を回転してその長軸と短軸を座標軸に揃える」と考えるよりも、 むしろ、
楕円は固定して「xy座標系を回転して楕円の長軸と短軸に揃える」と考える。
但し、どちらが長軸でどちらが短軸かはどちらの半径が大きいかによるので、
長軸と短軸を合わせて「主軸」といい、 固有ベクトルを計算することは楕円の主軸を
計算することなので、このように主軸を座標軸に取った座標系で表すことを
「主軸変換」と呼び、そのときの固有値を「主値」とも言う。
固有値と固有ベクトルを「主軸」や「主値」と呼び、
行列の対角化を「主軸変換」と呼ぶこともある。

変量がn個の場合、n変量の「主成分分析」とは、 分散共分散行列が対角行列になるように
n次元空間の楕円体の主軸方向に新しい座標軸をとる 「主軸変換」であり、
その固有ベクトルが、主成分方向、即ち、「主軸」であり、
その固有値が、主成分方向の分散、即ち、「主値」である。




分散共分散行列と相関行列

上記の説明の場合では、資料の値をそのまま用いて主成分分析をしているが、
変量の単位が異なる場合や変量によって平均・分散に開きがある場合は、
データを標準化してから主成分分析を行う。

それぞれの偏差を標準偏差で割ったもの
(個々のバラツキを全体のバラツキで割ったもの)
を比較することを、データの「標準化」とか「基準化」という。
このように標準化すると、その単位は無次元になるので、
いろいろな単位で表された資料間での単純比較が可能になる。
「標準化されたサンプル」は、「平均」が0、「分散」は1を示すことになる。

また、データを標準化すると、分散共分散行列は相関行列になる。
だが、同じ資料を扱う場合であっても、偏差の平方和・積和行列、
分散共分散行列で求めた固有値・固有ベクトルと、
相関行列によって求めた固有値・固有ベクトルは一致しない。

例えば、R言語で主成分分析を行う関数には「prcomp」関数が存在するが、
ここで、「scale=T」は数値のスケールが合っていないときに用いるオプションであり、
スケールが統一されている場合は入力する必要はない。 ここで「T」を指定すると相関行列から、
「F」を指定すると分散共分散行列から主成分分析が行われる。




固有値問題の数値解法

結局、主成分分析の正体は、分散共分散行列の固有値問題に帰着される。
勿論、ここでは敢えて触れないが、固有値を求めるアルゴリズムには、
「反復解法」がよく使われるが、「ヤコビ法」や「ハウスホルダー法」等、
複数の方法があり、何を用いるかによって、結果が異なってくる点には注意が必要である。

「反復解法」とは、まず、固有値と固有ベクトルを近似的に求め、
これらが固有方程式(特性方程式)を満たすように少しずつ修正を加え、
この固有方程式(特性方程式)が殆ど満たされるまでこれを繰り返すもので、
「ヤコビ法」はどちらかというとこれを直接に行い、「ハウスホルダー法」は
これをいくつかの段階に分けて間接的に行うものである。

何故、用いるアルゴリズムによって、固有値を求めた結果が異なってくるのだろうか。
例えば、n個の変量の主成分分析の場合、n個の固有値を求めることになる。
そのためには、n次元の固有方程式を解く必要があるわけだが、
三次方程式の解の公式であれば、「タルタリア・カルダノの公式」、
四次方程式の解の公式であれば、「フェラーリの公式」が存在するが、
一般の五次方程式には代数的な「解の公式」は存在しないことが、
19世紀の時点で、既にアーベルやガロアらによって示されている。
或いは、楕円関数と楕円積分や楕円曲線などの特殊な方法を使えば、
解くことも可能な場合もあるらしいが、そこまでして、
無理矢理強引にn次元の固有方程式を解いたところで、
今度は、「計算誤差」の問題が立ちはだかるだろう。

「計算誤差」には、「丸め誤差」、「打切り誤差」、「情報落ち」、「桁落ち」、
「オーバーフロー」、「アンダーフロー」等の種類が存在するが、
そもそも、 我々人間の10進数の計算を、コンピューターという計算機は、0と1という、
2進数の世界で解いているのだから、この問題が付き纏うのはある意味当然でもある。
ところで、今、固有値問題を解く際に用いているプログラミング言語は、
C言語/C++なのか、Excelなのか、FORTRAN77/Fortran90なのか、或いは、
Javaか、JavaScriptか、Perlか、PHPか、Pythonか、それとも、R言語なのだろうか。
勿論、これらの環境によって、小数表示される桁数等も異なるだろう。




その他の多変量解析の手法

多変量解析には、他にも、「因子分析」や「判別分析」等の手法や、
質的データに数値をあてはめて分析していく「数量化分析」という方法もある。
この「数量化分析」の「数量化Ⅰ類」、「数量化Ⅱ類」、「数量化Ⅲ類」は、
それぞれ、質的データ版の「回帰分析」、「判別分析」、「主成分分析」である。
しかし、多変量解析に限らず、統計という分野は、その手法を学べば学ぶほど、
胡散臭いと感じることが増えるかもしれない。例えば、選んだ変量は適切なのだろうか。

これは、重回帰分析の記事でも述べたが、説明変量間に強い相関がある時、回帰係数の符号が
予想に反することがあり、これを「多重共線性(multi-collinearity)」またはマルチコと呼ぶ。
説明変量が多くなると、マルチコがそれだけ起きやすくなるので、
説明変量間の相関が強くないかどうかを確かめながら、説明変量を選ぶ必要がある。

重回帰分析と主成分分析

重回帰分析と主成分分析では、同じ1次式を使っていても、もとにある考え方は全く異なる。
重回帰分析は、複数の変量の中から目的変量を1つ選び、
その目的変量をほかの説明変量で表そうとする考え方である。
そして、目的変量の実測値と理論値の間のずれをできるだけ
小さくなるようにして導かれたのが重回帰式である。

これに対し、主成分分析は、いくつかの変量を組み合わせて主成分という変量をつくり、
集まりの中にある個々の違いを見分けようとする考え方である。
このように、主成分はあくまでも数学的な手法によって、
作り出された新たな指標であり、実測値に相当するものもないため、
それぞれの主成分が具体的に何を表しているのかという、
各主成分の持つ意味は分からないことが多い。

これが重回帰分析と大きく異なる点である。

判別分析

「判別分析」の考え方も、主成分分析とよく似ているが、
その主成分分析では、個々の点ができるだけ見分けられるような
角度からグラフを見て、主成分得点を測る直線の傾きを求めたが、
判別分析では、個々の点でなく、グループ間の違いを見分けるために、
グループ間が、グループとして最も離れて見える角度であればよい。
これが主成分分析と異なるところである。

因子分析と主成分分析の違い

「因子分析」は一見すると、主成分分析とよく似ているが、全く異なる手法である。
「主成分分析」と「因子分析」の式は同じ形をしていることが、両者を混同する原因でもある。
「主成分分析」は変量を「合成」して主成分とするのに対し、
「因子分析」は、変量を「分解」して因子得点にする。
また、主成分分析では、残差を考える必要はないが、因子分析では、残差で補う必要がある。
因子分析の場合に、直交しているのは座標軸の方向ベクトル(因子負荷量)ではなく、
各個体の値(座標軸に沿って読んだ値)を並べたベクトル(因子)の方である。
座標軸は直交していない。2つの因子が直交するのは、2つの因子が独立である場合である。

主成分分析では、個体を表すために主成分を用いると
情報の損失(無視した成分の2乗和)の発生が
不可避である一方、因子分析は独自因子の項があることから
等式になるので、一見情報の損失はないが、
「≒」の式で考えれば因子分析でも情報の損失が発生し、
寄与率によって因子分析の有効性を判定することになる。
しかし、因子分析では、要約の有効性よりも、
変量の裏に潜んでいる因子を見つけ出すことに主眼が置かれている。

また、主成分分析の条件の与え方では係数(主成分負荷量)は1通りに決まるが、
一般的に因子分析の条件の与え方では係数(因子負荷量)は1通りに決まらない。
主成分分析では誰が行っても同じ分析結果が得られるが、
因子分析では条件の与え方が多様で分析結果は1通りにはならない。
分析の仕方に自由度があり、同じ資料を用いても異なった結果が出てくる。
主成分分析はあらかじ 合成変数を設定するわけではないので受動的分析であり、
因子分析はあらかじめ 変量を設定するので能動的分析であるといってもよいかもしれない。

因子分析の曖昧さは、立体図形を平面で描写するとき、
3次元のものを2次元で表現しなければならないので、
どこかで情報の損失が起こるが、どの部分の情報を落として
表現するかは書き手に委ねられている状況と同様である。

従って、生物学、経済学、農学などある程度、客観性を重んじる分野の
論文などでは因子分析はあまり使われていない。特に、厳密性を求める
物理学・化学・医学などでは因子分析は使えない。
しかし、心理学やマーケティングなどプレゼンテーションの仕方が
ものをいう分野では、主成分分析より因子分析の方がよく使われる。

以上のように、両者の手法は方向性が全くの真逆なのだが、
屡々しばしば、 両者を混同した説明がされている場合が見受けられる。
それが、説明者の理解不足や勘違いに起因するものなのか、
或いは、いつの間にか、論点をすり替えているという、
詐欺師の手法によるものなのかは、状況判断が難しいが、
例えば、「文系的要素」、「理系的要素」等という、
為政者、権力者によって生み出された、 恣意しい的な指標が、変量として
設定されていたのなら、胡散臭さを感じるような感性は必要である。
何故なら、文理区分なるものは、海外には存在していない概念であるから、
このような指標が、変量に設定されている時点で、信憑性に欠けると思われるからだ。

こうした「多変量解析」は、「データサイエンティスト」に必須の技法である。
しかし、「データサイエンティスト」は、 あたかも、「科学者」であるかのように、
「サイエンティスト」という名を冠するものの、その実態は、
「科学者」というよりも、むしろ、「コンサルタント」に近い。
よく、「科学」は「再現性」を神とする宗教だと揶揄されるが、
「統計」が扱うデータは、屡々しばしば、 この「再現性」が怪しいことがあるから、
恣意しい的な指標が用いられていないかを見抜く猜疑心は重要である。
科学的に実証されるまでは、統計解析はあくまで「仮説」であり、
統計解析のみによって得られた結論は、科学的に解明されるまでは、
正しいとは断定できない。両者をしっかりと区別することが大切である。




参考文献

  1. 「これなら分かる応用数学教室―最小二乗法からウェーブレットまで」(共立出版、2003年)
  2. 「図解雑学 多変量解析」(ナツメ社、2007年)
  3. 「独習者のための理系大学数学」(工学社、2010年)
  4. 「まずはこの一冊から意味がわかる多変量解析」(ベレ出版、2014年)

Wikipedia

  1. 主成分分析 - Wikipedia
  2. 千住火力発電所 - Wikipedia
  3. 点と直線の距離 - Wikipedia
  4. 分散共分散行列 - Wikipedia
  5. ラグランジュの未定乗数法
  6. 教師なし学習 - Wikipedia
  7. 五次方程式 - Wikipedia
  8. 固有値問題の数値解法 - Wikipedia
  9. 二次形式 - Wikipedia
  10. ハウスホルダー変換 - Wikipedia
  11. 反復法 (数値計算) - Wikipedia
  12. ヤコビ法 (固有値問題) - Wikipedia
  13. R言語 - Wikipedia
  14. 因子分析 - Wikipedia
  15. 判別分析 - Wikipedia



Shadow Academy トップへ戻る

inserted by FC2 system