- クラスター分析
- データの読み込み
まず,csv形式と呼ばれる,個々のデータがコンマで区切られた形式の
データファイルを読み込む.
- メニューの「データ」から,
「データのインポート」→
「テキストファイルまたはクリップボードから」を選ぶ.
- 読み込んだデータに R 用の名前(データセット名)を指定して,
ファイルの形式の詳細を指定する.下の例では,@データセット名が「cexam」,
Aファイルの1行目に変数名があることをチェック,Bフィールドの区切り記号が
カンマであること(フィールドとは,データファイルの列のこと),
C小数点の記号がピリオドであること,を指定している.これらを指定してから,
一番下の「OK」ボタンを押す.
- 読み込むデータファイルを指定する.
- 読み込んだデータの中身を確認しよう.
メニューの下にある「データセットの編集」ボタンを押すと,
読み込んだデータが表示され,修正もできる.データを見るだけなら,
「データセットを表示」ボタンでもいいが,そのボタンを押すと
ハングアップする不具合があるみたいだから,押さないように.
読み込んだデータセットは,5つの変数(no と x1〜x4)を持つ123個のデータで
構成されていることがわかる.
- クラスター分析(階層的)
まずは,
階層的な方法でクラスター分析を行う.
- メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「階層的クラスタ分析」を選ぶ.
- 分析の対象とする変数(ここでは x1 〜 x4)とクラスタ間の距離の測り方(ここではウォード法),データ間の距離の測度(ここではユークリッド距離)を指定して,
さらに,「デンドログラムを描く」をチェックして,
「OK」ボタンを押す.
- 表示されたデンドログラムを見て,グループ分けの結果を概観しよう.
変数名のラベルが重なって表示されているため,詳しくは見ることはできない.
このデンドログラムから2〜4のクラスタに分けることができるように
見える.
- デンドログラムからクラスタ数を決めて,分析結果を要約しよう.
メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「階層的クラスタリングの要約」を選ぶ.
- クラスタ数を決めて(ここでは3個)を決めて,「OK」ボタンを押す.
- 出力ウィンドウに分析結果が表示される.
3つのクラスはそれぞれ,56個,39個,28個のデータで構成されることが
わかる.また,それぞれのクラスタの平均値も表示される.
- さらに,バイプロットにより,各データ間の類似度が
概観できる.バイプロットとは,データの第1主成分得点と第2主成分得点
の散布図である.また,第1主成分と第2主成分に対する各変数の
重みのペアもベクトルとして図示される.
- 階層的クラスタリングの分析結果をデータセットに保存しよう.
メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「階層的クラスタリングの結果をデータセットに保存」を選ぶ.
- 分類するクラスタ数を指定して(ここでは3個),「OK」ボタンを押す.
- 分類されたクラスター番号が,変数
hclus.label に記憶されていることを確認しよう.
メニューの下にある「データセットの編集」ボタンを押すと,
データが表示される.
- 分類されたクラスターごとに色を変えて,散布図を
描いてみよう.ここでは,変数 x1 を横軸に,変数 x2 を縦軸に.
- 散布図にデータの番号を表示するために,「入力ウィンドウ」に
"text(cexam$x1+xinch(0.1),cexam$x2,cexam$no)" と入力し,
「入力ウィンドウ」の右下の「実行」ボタンを押す.
- クラスター分析(非階層的)
つぎに,非階層的なクラスター分析を行う.
- メニューの「統計量」から,
「次元解析」→「クラスタ分析」→「k-平均クラスタ分析」を選ぶ.
- 分析対象の変数(ここでは x1 〜 x4) を選び,クラスタ数を
指定し(ここでは 3),さらに,「データセットにクラスタを
割り当てる」にチェックを入れて,「OK」ボタンを押す.
- 第1主成分と第2主成分の散布図(バイプロット)が
表示され,クラスターへ分類した様子が視覚的に確認できる.
- 出力ウィンドウに分析結果が表示される.
3つのクラスはそれぞれ,47個,42個,34個のデータで構成されることが わかる.また,それぞれのクラスタの平均値なども表示される.