1. ホーム
  2. 統計解析・品質管理
  3. 会員広場
  4. 六一学者の千字一話(連載)

第32話 データを並べ替えて分位値をみる(六一学者の千字一話)

吉澤正先生御逝去に寄せて

六一学者の千字一話  六一学者 (吉澤 正氏)
六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)


第31話では,都道府県データを大きさの順に並べ替え,経験分布関数やその逆関数である経験表現関数(あるいは経験分位関数といってもよい)をグラフにして,データの特徴を把握するとよいと述べた.今回は,表現関数や分位関数に関係する用語を簡単に説明しておこう.

変数Xの経験分布関数F(x)は,変数Xがある値x以下の値をとるデータの割合(比率)であり,これを式で書くと

F ( x ) = Pr{ X ≦ x }

となる.データ数がnで,値がx以下のデータ数r(x以下でxに一番近いデータの順位)とすれば,F(x)はr/nで求めるのが普通である.理論的な確率変数があるときには,そのような確率を累積分布関数とか理論分布関数という.

都道府県人口のデータでは,経験分布関数を求めておけば,人口が200万人以下の都道府県の割合とか,人口が400万人以下の都道府県の割合が,それぞれ 6割弱の27/47と8割弱の38/47 というように求められる.したがって,200万人より多く400万人以下の都道府県の割合は約2割の11/47 であることなどもすぐにわかる.

経験分布関数の図で軸を入れ替えた関数,つまり逆関数にした経験表現関数は,確率pの値から

p = F ( x )

となるxを求めるもので,pに対応するデータの分位値を与えている.pが0.25のときは下側4分位値,0.75のときは上側4分位値,0.5のときは中央値,0.1のときは下側10分位値)であり,一般にはクォンタイル(Quantile)といわれる.なお,4分位値は,英語ではクォータイル(Quartile)であることに注意したい.そこで,この関数を

x = Q ( p )

と書くとよいであろう.分布関数は確率を求めるのでP関数,分位関数はクォータイルを求めるのでQ関数というのがよいのではないかとも思っている.

第31話で触れた故森口先生の著書では,

x = χ ( u )

と表記されている.ギリシャ文字のχ(カイ)を使っているには,エックスを想起しやすいようにした意図があるらしい.ここでは,データ解析でよく出てくるクォータイルから,Q(p)と表記しておく.分位に関しては,分位点とか分位値という言い方もあるが,筆者は,理論分布についての分位を分位点(5%点など言うように)といい,データ(標本)について求められる値を分位値ということにしている.4分位値とか中央値は分位値の代表的な例である.

データの分位値を求めるには,データを並べ替えたときの順位(データの小さい方を1)を求めておいて,データ数nに対して比率r/nに対するデータがr番目のデータに対応する.しかし,データの順位が離散的なので,細かくいうとクォンタイルにはいろいろな定義があり,nが小さいときには,定義の仕方で多少の差が生じる.

チューキー流の探索的データ解析(EDA: Exploratory Data Analysis)では,中央値は,順位1と順位nの中央ということで,

k = ( 1+n )/ 2

を求め,その値が整数なら,k番目のデータを中央値,kが半整数(.5がつく場合)なら,

k - 0.5 と k + 0.5 の番目のデータの中点を中央値とする.

さらに,4分位値は,上のkが整数なら,

m1 = ( 1 + k )/ 2 と
m2 = ( k + n )/ 2

を求め,m1とm2 が整数なら,順位がそれぞれに対応するデータを下側及び上側4分位値とする.m1とm2 が整数でないなら,対応する両側のデータの平均を4分位値とする.そして,上のkが整数でなければ,

m1 = ( 1 +k-0.5 )/ 2 と
m2 = (k + 0.5 + n )/ 2

を求め,同じように考えて,4分位値を決定する.例えば,都道府県データの場合,nが47で,kは24となり,m1は12.5,m2は35.5となる(第31話の表1参照).もし,nが48なら,kは24.5,m1とm2はそれぞれ,12.5と36.5となる(下図を参照).

[画像を拡大]をクリックすると,大きな画像をご覧いただけます.


下側4分位値,中央値,上側4分位値の順位[画像を拡大]

探索データ解析では,最小値,下側4分位値F1,中央値M,上側4分位値F2,最大値の五つでデータの分布を代表させることを5数要約という.また,5数要約の値から,外れ値を検出したり,箱ひげ図を書いたりする.ちなみに,二つの4分位値の差を4分位差といい,Dとすると,それぞれの4分位値から外側へ1.5.Dを越えるデータが外れ値とされる.

箱ひげ図は,二つの4分位値の幅で箱を書き,その中に中央値の位置を示し,箱の両端からひげといわれる直線を,外れ値を除く最小値と最大値のところまで,引いて,さらにあれば外れ値を○や×等でマークするものである.


箱ひげ図の説明[画像を拡大]

次回は,経験表現関数とローレンツ曲線との関係を説明したい.


イベント案内や製品などの最新情報をお届けします

メールマガジン
最新の製品アップデート情報やセミナー・イベントなどのお知らせを,eメールでお送りします