六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
今年で87回目となる夏の甲子園,全国高校野球選手権のデータは,出場校の事前の予選での成績などと合わせて,データ解析を学ぶための良い材料である.
出場校が最近は48校で,これは日本の都道府県数47プラス1であるが,都道府県データと並んで,学習用にはデータ件数が手ごろであり,しかも好き嫌いは別としても,少なくとも地元とか住んだことのある地域の出場校には関心を持っている人が多い.事前のデータで,その年の優勝校を予想してみるのもおもしろい.
今年2005年の夏の甲子園は,準々決勝から決勝まで大変な打撃戦が多く,すばらしい熱闘が繰り広げられた.2年連続優勝した駒大苫小牧高校の戦いぶりをはじめ,多くのファンに感動を与えた.(あとで暴力問題のあったことが発表され,感動に水をさしたのは残念.わが国の高校や大学の運動部では,どうも行き過ぎた精神主義や暴力もやむをえないといった風潮が抜けきれない.六一学者も若いころは,スポーツに熱中したが,幸いにして優れた指導者に恵まれ,人間としての成長や合理的な練習方法を訓練された.高野連の処分は甘すぎるもので,根本的なところで,高校・大学スポーツの暴力問題を解決できそうもない.スポーツが多くの人に感動を与える大切なものであることをよく理解して,指導者の考え方や学校などの悪しき伝統を変えていってほしいものだ.)
さて,今年の甲子園が,例年より打撃戦が多いと感じたが,データで裏付けられるであろうか.高野連のホームページには昔からの記録が載せられている.あまり古い時代は除いて,1965年から2005年まで10年おきのデータ(5年分)を取り上げて,各試合での勝ちと負けの得点を入力して,とりあえず,箱ひげ図に描いてみた(図1).
単純に平均をとっても外れ値の影響があるので,中央値を真ん中にした箱ひげ図にしてみたわけである.ちなみに,中央値,上側・下側の4分位値,平均値を表にもまとめておく.箱ひげ図で見ると,1985年のデータには外れ値が多いが,箱ひげ図の姿で見れば,得点の分布が全体として増加傾向にあることがわかる.
参考までに,各年度の勝ち側と負け側の得点について基本的な統計量を表1に,2005年度の各試合について勝ちと負けの得点の散布図を図2に示しておく.
変数名 | データ数 | 合計 | 最小値 | 下側4 分位値 | 中央値 | 上側4 分位値 | 最大値 | 平均値 | 標準偏差 |
---|---|---|---|---|---|---|---|---|---|
1965年勝 | 29 | 153 | 1 | 3 | 4 | 6 | 13 | 5.3 | 3.34 |
1975年勝 | 37 | 205 | 1 | 4 | 5 | 7 | 16 | 5.5 | 2.96 |
1985年勝 | 48 | 319 | 2 | 4 | 6 | 8 | 29 | 6.6 | 4.84 |
1995年勝 | 48 | 293 | 2 | 4 | 6 | 8 | 15 | 6.1 | 3.07 |
2005年勝 | 48 | 334 | 3 | 4 | 7 | 9 | 14 | 7 | 2.88 |
1965年負 | 29 | 37 | 0 | 0 | 1 | 2 | 4 | 1.3 | 1.25 |
1975年負 | 37 | 72 | 0 | 0 | 1 | 4 | 5 | 1.9 | 1.82 |
1985年負 | 48 | 111 | 0 | 1 | 2 | 4 | 8 | 2.3 | 2.14 |
1995年負 | 48 | 122 | 0 | 1 | 2 | 4 | 13 | 2.5 | 2.5 |
2005年負 | 48 | 144 | 0 | 1 | 2 | 5 | 10 | 3 | 2.44 |
筆者が,この千字一話で高校野球を取り上げようと思ったのは,第28話,第29話で分布関数に触れたことが動機である.
図3は,2005年度の48試合について,勝ち側の得点データをエクセルで大きさの順に並べ替え,横型の棒グラフで描いたものである.縦軸が得点の順位で最少を1位,最大を48位にしてある.最小は3点,最大は14点であるが,得点の大きさが横軸になっている.
この図を,白地の部分で見て,縦軸は0から1として相対累積度数とすると,通常の分布関数(経験分布関数という)となっていることがわかる.
経験分布関数は,ヒストグラムあるいは度数表を作っておいてから,累積度数を求めてグラフ化されるが,データを大きさの順に並べ替えて,グラフ化すれば,直接的に表現されることがわかる.これについは,別の機会に詳しく説明しよう.
イベント案内や製品などの最新情報をお届けします