六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
前回までに触れた経験表現関数(経験分位関数ともいう)は,横軸をデータの順位として表示しておいても本質的には変わらないが,その横軸(独立変数)が比率(あるいは確率)で,縦軸(従属変数)は観察された変数である.
今回は,経験表現関数の縦棒の大きさをその合計〔都道府県データなら全国の合計値〕で割ったもの,すなわちシェアとか分け前とも呼ぶものを,さらに累積してその値を縦軸に表示したものを累積分け前曲線とよんでおこう.じつは,それは世の中でローレンツ曲線といわれるものである.
順位 | データ | 分け前 | 累積分け前 |
---|---|---|---|
合計 | 50 | 1 | |
1 | 1 | 0.02 | 0.02 |
2 | 1 | 0.02 | 0.04 |
3 | 2 | 0.04 | 0.08 |
4 | 3 | 0.06 | 0.14 |
5 | 5 | 0.1 | 0.24 |
7 | 10 | 0.2 | 0.6 |
8 | 20 | 0.4 | 1 |
これを,都道府県別の人口,公民館数,図書館数に適用してみたのが,下の図2である.
それを見ると,人口が下に大きく膨らみ,次に図書館,公民館数はもっとも膨らみが小さい.この曲線は,ローレンツ曲線ともいわれ,その膨らみの大きさで分け前の不平等性を表すものとして使われる.図の対角線からの下への膨らみの面積と下側三角形の面積との比率をジニ係数といい,これが小さいほど不平等さは小さいといえる.このデータのジニ係数は,人口が0.44,図書館が0.38で,公民館数が0.30である.人口の不平等性が大きいのは東京をはじめ2割程度の都道府県が日本の人口の5割を占めているからである.
公民館数は都道府県の規模に比例せずに,小さい規模の県でも,相当数の公民館があり,災害のときなどは避難場所としても役立っている.図書館は,人口に比例する程度が高く,都道府県別で見るとその数に人口と同じようなバラツキがある.
さらに,詳しくは,散布図を使って観察するとよいが,それは次回にゆずろう.データも次回に掲載する.
ジニ係数は,国別の所得分布の比較などによく使われる.ちなみに,荒い推定であるが,日本の所得分布のジニ係数は約0.25ぐらいで,公民館の赤線よりさらに直線的で,アメリカが図書館の青線なみの0.38ぐらい,ブラジルになると日本人口の青線よりさらに膨らんで0.6ぐらいになるという.
なお,データの並べ替え順を大きい方から小さい方に並べ,個別のデータを棒グラフでその累積を折れ線グラフで同時に描いた図をパレート図といい,品質管理などの分野ではよく使われる.
話はそれるが,2005年9月に発生した大型台風14号の進路を見ていて,九州から北海道の日本列島の形で日本海側の曲がり具合と太平洋側の曲がり具合がローレンツ曲線に見えてきた.自然災害の不平等性を表すローレンツ曲線はあるだろうかと思われた.
また,本シリーズのだいぶ前に南北線はどのくらい直線的か,次に山手線はどのくらい丸いかなどと考えた.それらの問題から,富士山は,どのくらい三角形で近似できるかという問題や富士山をヒストグラムとして見てその標準偏差はいくらかという問題が気になっている.読者からの快答?を期待したい.
イベント案内や製品などの最新情報をお届けします