六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
前回は,政治的抵抗性と統計的抵抗性を考えたが,政界では,外れ値の真紀子さんが外されたら,新たにムネオさんという外れ値が検出され,しばらく離島ならぬ離党で避難するらしい.統計データの解析でも,一つの外れ値を外すと別のデータが外れ値として検出されることがあり,どこまで外れ値探しを続けるかが問題になる.外れ値には,それはそれなりの存在意義もあるので,なんでもかんでも切り捨てていては面白くなくなるだろう.
さて,今回は,相関係数の抵抗性を検討しよう.今年は桜の開花が早く,これも例年に比べて外れ値なのかという感じがするが,例年のようにプロ野球の開幕が近づき,朝日新聞3月22日号に各球団の登録選手の身長や体重のデータが出ていた.たまたま目に付いた横浜の投手34人について,図1のように,身長と体重の散布図を書いてみた.
相関係数は0.724.一般の成人男性の場合は,0.5から0.6程度の相関であることに比べるとプロの場合の相関が高い.平均身長が184.7cm,平均体重が82.5kgと大きいのもさすがである.投手と捕手や野手とでは体型に違いがあるか調べてみると面白そう.計算してみてください.
チーム | 位置 | 選手名 | 年齢 | 身長 | 体重 |
---|---|---|---|---|---|
横浜 | 投手 | 斎藤 | 32 | 188 | 87 |
横浜 | 投手 | 13 | 18 | 178 | 71 |
横浜 | 投手 | 14 | 27 | 175 | 80 |
横浜 | 投手 | 15 | 30 | 179 | 80 |
横浜 | 投手 | 16 | 29 | 182 | 80 |
横浜 | 投手 | 17 | 25 | 178 | 82 |
横浜 | 投手 | 18 | 28 | 183 | 84 |
横浜 | 投手 | 19 | 28 | 186 | 87 |
横浜 | 投手 | 20 | 24 | 182 | 85 |
横浜 | 投手 | 21 | 32 | 181 | 83 |
横浜 | 投手 | 22 | 23 | 188 | 86 |
横浜 | 投手 | 24 | 28 | 183 | 85 |
横浜 | 投手 | 28 | 18 | 183 | 73 |
横浜 | 投手 | 30 | 27 | 185 | 81 |
横浜 | 投手 | パワーズ | 30 | 196 | 100 |
横浜 | 投手 | 34 | 28 | 187 | 85 |
横浜 | 投手 | 36 | 20 | 179 | 74 |
横浜 | 投手 | 37 | 25 | 182 | 76 |
横浜 | 投手 | 38 | 23 | 177 | 68 |
横浜 | 投手 | 40 | 29 | 186 | 90 |
横浜 | 投手 | 41 | 26 | 182 | 83 |
横浜 | 投手 | ターマン | 26 | 208 | 95 |
横浜 | 投手 | 43 | 24 | 190 | 97 |
横浜 | 投手 | 46 | 22 | 183 | 74 |
横浜 | 投手 | 47 | 23 | 186 | 87 |
横浜 | 投手 | 48 | 19 | 181 | 72 |
横浜 | 投手 | グスマン | 26 | 187 | 82 |
横浜 | 投手 | 52 | 25 | 192 | 92 |
横浜 | 投手 | 54 | 30 | 186 | 78 |
横浜 | 投手 | 58 | 22 | 185 | 73 |
横浜 | 投手 | 62 | 19 | 182 | 73 |
横浜 | 投手 | 63 | 18 | 192 | 90 |
横浜 | 投手 | 67 | 19 | 184 | 80 |
横浜 | 投手 | 68 | 20 | 183 | 78 |
横浜 | 投手 | 外れ1 | 26 | 208 | 110 |
横浜 | 投手 | 外れ2 | 26 | 208 | 70 |
ところで,散布図を見ると,右上に一つの外れ値がある.ターマンという外国人の選手で,身長が206cm,体重が95kgである.
この選手を除くと相関係数は0.753になり,もとの0.724より少し大きくなる.この選手の体重は身長の割には少ないが,その体重が全体の傾向線(回帰線)上に近い110kgに太った場合と,70kgにやせた場合について,相関係数の変化を調べてみよう.第1のケース(図2)では0.831,第2のケース(図3)では0.358となる.
このように,データ数が30くらいとすくないときは,相関係数は一つの外れ値の影響を強く受ける.
実際のデータ解析でも,散布図をよく観察して,外れ値の影響を調べておく必要がある.多変量解析では,2変数の間の相関係数が分析の基本となるので,外れ値の検出とその影響を調べておくことが大切である.外れ値の影響を緩和する方法としては,データを変数ごとに順位(ランク)に変換し,順位相関係数(順位をデータとして通常の相関係数の計算式で計算したもの)を使うこともある.
参考までに,この分析に使ったデータを記載しておく.
2002年3月22日掲載
イベント案内や製品などの最新情報をお届けします