1. ホーム
  2. 統計解析・品質管理
  3. 会員広場
  4. 六一学者の千字一話(連載)

第31話 データ解析はデータの並べ替えから —経験分布関数と経験表現関数—(六一学者の千字一話)

吉澤正先生御逝去に寄せて

六一学者の千字一話  六一学者 (吉澤 正氏)
六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)


第30話の最後には,一組のデータを大きさの順に並べ替えて,横型の棒グラフを書き,これの見方を変えれば,経験分布関数となる例を示した.

最小値の順位は1, 最大値の順位はn(データ件数)であるが,その順位を0から1の区間に対応させて縦軸とし,横軸はデータの変数の値にとるわけである.平成15年10月の都道府県の人口を万単位に丸めたデータについて,エクセルを使って並べ替える.その結果を表1に示す.これについて横型の棒グラフを書くと図1のようになる.

[画像を拡大]をクリックすると,大きな画像をご覧いただけます.

図1. 都道府県データの経験分布関数
図1.都道府県データの経験分布関数 [画像を拡大]
(横軸xの値に対して,棒の右端の高さをF(x)の値と見る,目盛りは右側に表示されている)

分布関数F(x)は,変数Xがx以下となる確率を意味するが,経験分布関数は観察されたデータに基づいて,変数Xがx以下となる相対的な割合を関数と見たものである.統計学の標準的な教科書では,データから適当な間隔のクラスを設定して度数表あるいはヒストグラムを作り,相対的な累積度数を経験分布関数としてグラフに描くように教えられている.そこで,多くの人は,ヒストグラムには親しんでいるが,経験分布関数にはあまり慣れていないようである.

最近は,エクセルのようなソフトをたいていの人が使いこなすので,データが与えられたときは,まず,大きさの順に並べ替え,横型の棒グラフを描いて経験分布関数として観察してみるとよい.

もう一つ面白い見方は,縦型の棒グラフによるものである.しばしば,図2のように都道府県順に棒グラフにすることもあるが,大きさの順に並べ替えて,図3のように表示するとよい.図3では,横軸は順位を表示しているが,これを図の上側に表示したように,0から1の区間の確率とすれば,経験分布関数の逆関数に相当する.

分布関数(あるいは累積分布関数,cdf: cumulative distribution function)の逆関数は,表現関数(representing function),あるいは分位関数(quantile function)といわれることもあり,(下側)確率の値からそれに対応する確率変数の値を与える.その値を分位点あるいは分位値という.

図2. 都道府県コード順の人口データのグラフ
図2. 都道府県コード順の人口データのグラフ[画像を拡大]
図3. 都道府県人口データの並べ替え後の表示
図3. 都道府県人口データの並べ替え後の表示 [画像を拡大]
図1の縦軸と横軸を取り替えたもの)

データに基づいて定義される離散的な分布関数は,ときに経験分布関数と呼ばれるが,その逆関数は経験表現関数とか経験分位関数と呼ばれる.理論的な分位には,パーセント点などがあるが,データに基づく分位は,4分位値,中央値,さらには10分位値などがある.図3で,上側の目盛で0.25,0.5, 0.75 のところで縦線を引いてあるが,4分位値や中央値が容易に読み取れる.

なお,理論的な確率分布の分布関数の逆関数を表現関数と呼ぶことは,故森口繁一先生によるが,東大出版会から『確率表現関数』という著書が1995年に刊行されている.表1には,都道府県別人口の値を示してある.

表1.都道府県別人口(平成15年10月推計値)
表1.都道府県別人口(平成15年10月推計値) [画像を拡大]

データ解析は,データを並べ替えることから始めよう.なお,逆関数を描くときは,もとの関数の図を横軸について反転し,それを反時計まわりに90度まわすとよい.透明な紙の上の関数図であれば,折り紙のようにy軸をx軸のほうに折ればよいことになる.

離散分布での分布関数(データによる経験分布関数でもよい)の階段型の簡単な図について,自分で書いてみよう.


イベント案内や製品などの最新情報をお届けします

メールマガジン
最新の製品アップデート情報やセミナー・イベントなどのお知らせを,eメールでお送りします