階層的クラスター分析は,対象となるデータ群を数学的に類似しているもの同士に分類する方法群の総称です.
階層的分類法は凝集型と分岐型に2分できますが,ここでは凝集型(分類対象となるデータをボトムアップ的に階層化する)の機能を提供します.分岐型のクラスター分析機能は「多段層別分析(AID)」として提供しています.一般的な解析の流れは,
と簡単なものですが,a)~d)の各手順・解析方法(アルゴリズム)には数多く提案方法があり,元になるデータの性質やその解析の目的に応じて最適なものを選択しなくてはなりません.また,それらの方法も次々と改良や検証が進められている途上にあります.
本システムではクラスター化の方法として,lanceとWilliamsによって提案され,現在では広く用いられている「組み合わせ的手法」をベースとして採用しています.
アジアの商品分類別輸出比率データがあります.
階層的クラスター分析を用いて,輸出比率データから国を分類してみましょう.
図1. アジアの商品分類別輸出比率データ
メニューバーから[手法]-[調査分析]-[階層的クラスター分析]を起動します.
変数の指定画面でサンプル名の「国」と量的変数の全変数を指定します.
図2. 変数の指定
解析方法の指定ダイアログが表示されます.
分類の種類では変数を分類するか,サンプルを分類するかを選択します.ここではサンプルとなっている「国」を分類するので,「サンプルの分類」を指定します.
標準化方法では,データを標準化するか,しないかを指定します.共通の測定単位を持ったデータで変数のばらつきを重視してクラスター化したい場合,もしくは予め標準化をおこなっているデータを使用する場合には標準化をおこないませんが,ここでは標準化をおこないます.また,クラスター化法(分類をおこなう手法)はウォード法,類似係数(対象をまとめていくための基準)は平方ユークリッド距離を使用します.
※ 各クラスター化法の特徴については下記「各クラスター化法の特徴」を参照
類似係数の方は「類似度」と「非類似度」の2種類ありますが,相関係数のように値の大きい方が類似性が高い場合は類似度と呼びます.一方,距離のように値の小さい方が類似性が高い場合は非類似度と呼びます.例えば平方ユークリッド距離はユークリッド距離(通常の距離)を2乗したものであるので,非類似度になります.
デンドログラム(各クラスター間の結合レベルを樹形図で表したもの)が表示されます.
ツールボタン「全体/詳細」 を押すと,サンプル名を表示できます.縦軸は結合レベル(距離)を示しています.結合レベルが16.120のところで切断すると5つのクラスターができます.
メニューボタン「統計量」を押すと,基本統計量が表示されますので,そこで各クラスターの特徴を検討することができます.
デンドログラムを見て分かるように,どの結合レベルで切断するかによって,いくつのクラスターに分類されるのかが変わってきます.
最適なクラスター数を自動的に決定する方法はなく,固有技術や結果の説明し易さからユーザが判断することになります.ただし,いくつか指標があり判断を助ける目安となります.指標は,クラスター集団を形成していく上でのクラスターの情報一覧である「凝集経過」ウィンドウで確認することができます.
また,デンドログラムが表示された状態でメニューボタン「一様性推移」を押すと,「一様性推移」ウィンドウで指標の値の推移を確認することができます.
他のウィンドウの説明をします.
「標準化データ」ウィンドウでは元のデータを標準化したデータを表示します.
「類似度行列(非類似度行列)」ウィンドウでは最初の全クラスター間の類似係数を表示します.
「結合レベル」ウィンドウでは全対象間の結合レベル(距離)を表示し,「一致プロット」では横軸に結合レベル(距離),縦軸に類似係数をとった散布図を描きます.
この時に相関係数が計算されますが,相関係数が1.0に近ければ類似係数がデンドログラム(結合レベル)によく反映されているということになります.
各クラスター化法の特徴は,以下のようになります.
名称 | 特徴 | 短所 |
---|---|---|
群平均法 |
| |
ウォード法 |
|
|
可変法 |
| |
最短距離法 |
|
|
最長距離法 |
|
上記の中でウォード法は連鎖が起きにくいことが経験的に知られており,実用性が高い手法になります.連鎖が起きると1つのクラスターに対象が順に1つずつ吸収されてクラスターが形成されていくので,どの距離でデンドログラムを切ってもクラスターとその他の対象1つずつで構成されたクラスターに分かれることになり,グループで分けたことにならなくなってしまいます.
一般的にウォード法では非類似度係数として平方ユークリッド距離を用います.
※ 「画面はJUSE-StatWorks/V4.0のものです」
こちらの手法を搭載した 「JUSE-StatWorks」の体験版をお試しください.
JUSE-StatWorksをご購入いただいた方や有償サポートサービス契約者の方には,割引サービスがあります.また,学生,教員,研究機関職員の方向けのアカデミック価格もございます.
JUSE-StatWorksによる新品質管理入門シリーズ 第5巻 『多変量解析入門』 | |
---|---|
![]() |
「多変量解析編」や「市場調査分析編」から,よく使われる9手法を解説 |
棟近雅彦 監修 / 野澤昌弘 著 | |
定価 3,080円(税込) | |
書籍用体験版とサンプルデータ公開中 ダウンロードへ |
イベント案内や製品などの最新情報をお届けします