1. ホーム
  2. 統計解析・品質管理
  3. 製品案内
  4. 手法一覧

階層的クラスター分析とは(多変量解析)

階層的クラスター分析は,対象となるデータ群を数学的に類似しているもの同士に分類する方法群の総称です.

階層的分類法は凝集型と分岐型に2分できますが,ここでは凝集型(分類対象となるデータをボトムアップ的に階層化する)の機能を提供します.分岐型のクラスター分析機能は「多段層別分析(AID)」として提供しています.一般的な解析の流れは,

と簡単なものですが,a)~d)の各手順・解析方法(アルゴリズム)には数多く提案方法があり,元になるデータの性質やその解析の目的に応じて最適なものを選択しなくてはなりません.また,それらの方法も次々と改良や検証が進められている途上にあります.

本システムではクラスター化の方法として,lanceとWilliamsによって提案され,現在では広く用いられている「組み合わせ的手法」をベースとして採用しています.

階層的クラスター分析の使用方法

1. データの用意

アジアの商品分類別輸出比率データがあります.

階層的クラスター分析を用いて,輸出比率データから国を分類してみましょう.

図1
図1. アジアの商品分類別輸出比率データ

2. 変数の指定

メニューバーから[手法]-[調査分析]-[階層的クラスター分析]を起動します.

変数の指定画面でサンプル名の「国」と量的変数の全変数を指定します.

図2
図2. 変数の指定

3. 解析方法の指定

解析方法の指定ダイアログが表示されます.

分類の種類では変数を分類するか,サンプルを分類するかを選択します.ここではサンプルとなっている「国」を分類するので,「サンプルの分類」を指定します.

標準化方法では,データを標準化するか,しないかを指定します.共通の測定単位を持ったデータで変数のばらつきを重視してクラスター化したい場合,もしくは予め標準化をおこなっているデータを使用する場合には標準化をおこないませんが,ここでは標準化をおこないます.また,クラスター化法(分類をおこなう手法)はウォード法,類似係数(対象をまとめていくための基準)は平方ユークリッド距離を使用します.

※ 各クラスター化法の特徴については下記「各クラスター化法の特徴」を参照

類似係数の方は「類似度」と「非類似度」の2種類ありますが,相関係数のように値の大きい方が類似性が高い場合は類似度と呼びます.一方,距離のように値の小さい方が類似性が高い場合は非類似度と呼びます.例えば平方ユークリッド距離はユークリッド距離(通常の距離)を2乗したものであるので,非類似度になります.

図3
図3. 解析方法の指定

4. 階層型クラスター分析による分類

デンドログラム(各クラスター間の結合レベルを樹形図で表したもの)が表示されます.

ツールボタン「全体/詳細」ボタン を押すと,サンプル名を表示できます.縦軸は結合レベル(距離)を示しています.結合レベルが16.120のところで切断すると5つのクラスターができます.

メニューボタン「統計量」を押すと,基本統計量が表示されますので,そこで各クラスターの特徴を検討することができます.

図4
図4. デンドログラム

デンドログラムを見て分かるように,どの結合レベルで切断するかによって,いくつのクラスターに分類されるのかが変わってきます.

最適なクラスター数を自動的に決定する方法はなく,固有技術や結果の説明し易さからユーザが判断することになります.ただし,いくつか指標があり判断を助ける目安となります.指標は,クラスター集団を形成していく上でのクラスターの情報一覧である「凝集経過」ウィンドウで確認することができます.

図5
図5. 凝集経過

また,デンドログラムが表示された状態でメニューボタン「一様性推移」を押すと,「一様性推移」ウィンドウで指標の値の推移を確認することができます.

図6
図6. 一様性推移

各指標の内容は以下の通りです

RMSSTD
2つのクラスターが結合して1つになった時の,平均平方根標準偏差
SPRSQ(平方セミパーシャル相関係数)
結合した2つのクラスターがどの程度似通っていたか(分散比率の減少比)を示す指標.値は0.0~1.0の範囲内で値が小さい程良い.値が急速に小さくなる前のクラスター数に注意する.
RSQ(平方重相関)
クラスター間分散と全分散の比率.値は0.0~1.0の範囲内で値が大きい程良い.値が急速に大きくなる前のクラスター数に注意する.
PSF(疑似F統計量)
各ステップでの全クラスター間の分離度合いを示す統計量.値の系列変化を見たときに,頂点となる位置のクラスター数に注意する.
PSt^2(疑似t2統計量)
各ステップで結合した2つのクラスター間の分離度合いを示す統計量値の系列変化を見たときに,値が大きく上がる直前のクラスター数に注意する.

5. 他のウィンドウの説明

図7
図7. 標準化データ
図8
図8. 類似度行列(非類似度行列)

他のウィンドウの説明をします.

「標準化データ」ウィンドウでは元のデータを標準化したデータを表示します.

「類似度行列(非類似度行列)」ウィンドウでは最初の全クラスター間の類似係数を表示します.

「結合レベル」ウィンドウでは全対象間の結合レベル(距離)を表示し,「一致プロット」では横軸に結合レベル(距離),縦軸に類似係数をとった散布図を描きます.

この時に相関係数が計算されますが,相関係数が1.0に近ければ類似係数がデンドログラム(結合レベル)によく反映されているということになります.

図9
図9. 結合レベル

図10
図10. 一致プロット


各クラスター化法の特徴

各クラスター化法の特徴は,以下のようになります.

名称特徴短所
群平均法
  • 最も代表的
  • クラスター間の類似度はそれらに属する対象の対の類似度の平均的な値で定義
  • 最短距離法と最長距離法の中間的な性質を持つ
ウォード法
  • クラスターを統合することによる平方和の増分が最も小さいものを統合する
  • ある1つのクラスターに対象が順に1つずつ吸収されてクラスターが形成されていく現象(連鎖)が起こりにくい
  • サイズ移動に敏感な非類似度係数しか使えない(通常,標準化データに用いる)
可変法
  • 各方法を統一的に扱う方法
  • パラメータの変更でどの方法にもなる
最短距離法
  • もっとも類似性の高い(距離が近い)対の類似度により決まる
  • 間隔尺度,順序尺度どちらにも使える
  • 一つの大きなクラスターを作る傾向がある
  • 1つでも近い対象を含むクラスターは次々と統合していくので長い帯状のクラスターが出来やすい(連鎖)
  • 逆に連鎖を確認するために使うといった場合は便利
最長距離法
  • もっとも類似性の低い(距離が遠い)対の類似度により決まる
  • 間隔尺度,順序尺度どちらにも使える

上記の中でウォード法は連鎖が起きにくいことが経験的に知られており,実用性が高い手法になります.連鎖が起きると1つのクラスターに対象が順に1つずつ吸収されてクラスターが形成されていくので,どの距離でデンドログラムを切ってもクラスターとその他の対象1つずつで構成されたクラスターに分かれることになり,グループで分けたことにならなくなってしまいます.

一般的にウォード法では非類似度係数として平方ユークリッド距離を用います.

本システムの機能・特徴

クラスター数の指定
デンドログラムが表示された状態でメニューボタン「クラスタ数設定」を押すと,クラスター数か切断レベルを指定できます.
デンドログラムの詳細情報の指定
デンドログラムが表示された状態でメニューボタン「オプション」を押すと,表示モード「全体/詳細」と装飾「統計量の表示有/無」,「切断線の表示有/無」,「クラスタごとのハッチングの有/無」,「平方根変換して表示するか/しないか」の指定,結合レベルの表示範囲の指定ができます.

※ 「画面はJUSE-StatWorks/V4.0のものです」

無料体験版をダウンロード

無料体験版ダウンロードへ

こちらの手法を搭載した 「JUSE-StatWorks」の体験版をお試しください.

統計的手法を身につけ,実務に生かす

イベント・セミナーのご案内

パッケージをご購入いただいた方や保守契約者の方には,割引サービスがあります.また,学生,教員,研究機関職員の方向けのアカデミック価格もございます.

【セミナー】多変量解析入門
多変量解析の基礎教育として最適なコースです.
【セミナー】StatWorks/V5操作入門(対象パッケージ購入で受講料無料)
統計解析入門者におすすめのセミナーを定期的に開催しております.パソコン・ソフトは弊社で用意いたしますので,ソフトをお持ちでない方もお気軽にご参加ください.
eラーニングシステム『StatCampus』のご案内
原則毎月1日開講で受講期間は3か月間
eラーニングでStatworksの操作方法や,手法理論解説のコースを提供いたします.コンテンツの一部の無料体験や各種割引もございます(パッケージ購入,保守契約者など)
自習や集合研修に…関連書籍
JUSE-StatWorksによる新品質管理入門シリーズ 第5巻 『多変量解析入門』
多変量解析入門 「多変量解析編」や「市場調査分析編」から,よく使われる9手法を解説
棟近雅彦 監修 / 野澤昌弘 著
定価 2,800円(税抜)
書籍用体験版とサンプルデータ公開中 ダウンロードへ

イベント案内や製品などの最新情報をお届けします

メールマガジン
最新の製品アップデート情報やセミナー・イベントなどのお知らせを,eメールでお送りします