六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
前回第9話では,南北線,東西線,新宿線はどのくらいまっすぐかという宿題を紹介した.その宿題から2つの問題が明らかになった.第一は,直線性ということをどのように定義するか,第二は,2次元に散らばる点についてその相関係数が最大になるような座標系はどのように決まるか.
第一の直線の定義は,まず,南北とか東西に方向を与えたときの直線性の定義を考えることである.次のような3とおりが思いつく.
南北方向と東西方向のデータの範囲(最大値-最小値),R(南北)とR(東西)の比率を直線度とする.南北線ならR(南北)を分母に,R(東西)を分子にする.これを
定義1:L(範囲)=R(東西)/R(南北)
と書く.東西線や新宿線なら分子と分母を逆にする.
範囲の代わりに,南北及び東西の標準偏差sを用いることも考えられるし,標準偏差でなく分散Vを用いてもよい.それぞれを
定義2:L(標準偏差)= s(東西)/ s(南北)
定義3:L2(分散)=V(東西)/V(南北)
とする.分散を使った定義3では,分散が標準偏差の2乗であるので,回帰分析での寄与率のようにL2という記号にした.
このように定義したときの直線度の値を表1に示す.表1には,分散を最大にする方向としての主成分を求めて比率を取った値を示してある.結果は,新宿線と南北線は同じ程度に直線的で,東西線はやや曲がりが多いといえよう.
線名 | R(東西) km | R(南北) km | L(範囲) | s(東西) km | s(南北) km | L (標準偏差) | L2 (分散) | L2 (主成分) |
---|---|---|---|---|---|---|---|---|
南北線 | 3.51 | 16.74 | 0.21 | 0.91 | 5.26 | 0.17 | 0.030 | 0.029 |
東西線 | 26.03 | 5.52 | 0.21 | 7.67 | 1.97 | 0.26 | 0.066 | 0.053 |
新宿線 | 20.16 | 4.91 | 0.24 | 5.94 | 0.99 | 0.17 | 0.028 | 0.025 |
このほかに,始点と終点との直線距離と営業距離の比率で直線度を定義することなども考えられる.これは曲線の長さを測る問題に関係し,おもしろい問題であるがここではこの程度にしておこう.
その宿題から派生した第二の問題は,2次元に散らばる点についてその相関係数が最大になるような座標系はどのように決まるかということであった.
この問題を直接に解くことは厄介であるが,いったん主成分分析(分散共分散行列を出発値とする)を行って,その主成分について相関係数が最大になる座標の直交回転を行う問題と考えると,45度回転する時が答えとなる.第1主成分と第2主成分の和と差をそれぞれ横軸と縦軸にとって駅をプロットすることに相当する.その結果は図10-1のようであるが,そのときの相関係数は絶対値で,南北線が0.944,東西線が0.899,新宿線が0.952であり,新宿線がその終点の本八幡を除くと一番直線的なことがわかる.
第9話では,始点と終点を結ぶ線を45度になるように座標系を取った例を示したが,そのやり方がなかなか良かったことがわかる.
2001年11月28日掲載
イベント案内や製品などの最新情報をお届けします