相関係数
相関係数(そうかんけいすう)とは、「多次元系の座標点が、どれほど近いか」の尺度のひとつである。
- ピアソンの積率相関係数
- スピアマンの順位相関係数
の二つが広く知られており、前者は「どれが、どのくらい」を表し、後者は「どっちが?」を表す。
概要[編集]
「ラーメンのうち、どれがどのくらい好きかを五段階評価で示してください」は「ピアソンの積率相関係数」の指標となり[1]、「ラーメンのうち、好きな順番で番号をつけてください」は「スピアマンの順位相関係数」の指標となる。
「醤油」「塩」「味噌」「豚骨」くらいの分類であっても、「野菜が摂れるかどうか」くらいは十人程度のデータを集めれば簡単に判別できる。野菜といえば塩か味噌であり、貝類は塩であり、醤油は「家系の野菜増し」などで、ほぼカテゴライズできる。
カレーも同様で、ジャガイモ・ニンジン・ナス・玉葱・茸・オクラのどれを入れるかや、カレールーはジャワカレーかゴールデンカレーかバーモントカレーか、豚薄切り肉かカレー用のポークかチキンかビーフあるいは牛すじ肉かといった組合せがあり、下手をすると世界人口が百億人を越えてもピンポイントで個人識別ができかねない。
たとえば、おでんの好きな具材であれば「ちくわぶ」「すじ」が入っていれば関東圏に絞られ、「がんも」「豆腐」「大根」「さつまあげ(てんぷら)」「餃子巻」「シューマイ巻」「ボール」「はんぺん」などの好みが加わると、数百人程度の人々であれば、ほぼ数人に絞られる。その他、「焼きそばはソースか醤油か塩か」「麺類だったらうどんか素麺か冷麦かほうとうか、あるいはパスタか蕎麦か米粉か」とかいった質問により、ますます範囲は絞られてゆく。人間は「互いに矛盾しない嘘を吐きつづける」のは困難である。
いわゆる「人工知能」[2]は、こうした「個人差」(個体差。個体識別の手がかり)に関するデータ蒐集において「とにかくデータを集めればなんとかなる」的なアプローチを取りがちであるため、いまのところ「年寄りの話相手になれる人工智能」はまったく未熟である。
ピアソンの積率相関係数[編集]
との相関係数を、次の式で計算する。なお、。
見ての通り、分子はベクトルの内積、分母はベクトルの絶対値の積の形であり、両データの向きが近い場合は大きな値に、反対方向の場合は負の値になる。両者が正、負の比例関係にある時、相関係数はそれぞれ1,-1となる。xとyが本当に無関係であれば、相関係数は原理的には0になるはずである。
実は、Nを3以上の整数とすると、との相関係数は0になる。
スピアマンの順位相関係数[編集]
与えられたデータの値を、そのままの形で用いるかわりに順位のみを用いてピアソンの積率相関を求めたものをいう。
積率相関係数では「相関は認められない」とされたデータから、「相関あり」という結果を拾い上げたケースもある[3]。
関連項目[編集]
参考文献[編集]
- 柳井晴夫・岩坪秀一『複雑さに挑む科学 ー 多変量解析入門』(講談社ブルーバックス、1976)