1. クラスター分析
    1. データの読み込み
      まず,csv形式と呼ばれる,個々のデータがコンマで区切られた形式の データファイルを読み込む.
      1. メニューの「データ」から, 「データのインポート」→ 「テキストファイルまたはクリップボードから」を選ぶ.



      2. 読み込んだデータに R 用の名前(データセット名)を指定して, ファイルの形式の詳細を指定する.下の例では,@データセット名が「cexam」, Aファイルの1行目に変数名があることをチェック,Bフィールドの区切り記号が カンマであること(フィールドとは,データファイルの列のこと), C小数点の記号がピリオドであること,を指定している.これらを指定してから, 一番下の「OK」ボタンを押す.



      3. 読み込むデータファイルを指定する.



      4. 読み込んだデータの中身を確認しよう. メニューの下にある「データセットの編集」ボタンを押すと, 読み込んだデータが表示され,修正もできる.データを見るだけなら, 「データセットを表示」ボタンでもいいが,そのボタンを押すと ハングアップする不具合があるみたいだから,押さないように.





        読み込んだデータセットは,5つの変数(no と x1〜x4)を持つ123個のデータで 構成されていることがわかる.


    2. クラスター分析(階層的)
      まずは, 階層的な方法でクラスター分析を行う.
      1. メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「階層的クラスタ分析」を選ぶ.



      2. 分析の対象とする変数(ここでは x1 〜 x4)とクラスタ間の距離の測り方(ここではウォード法),データ間の距離の測度(ここではユークリッド距離)を指定して, さらに,「デンドログラムを描く」をチェックして, 「OK」ボタンを押す.



      3. 表示されたデンドログラムを見て,グループ分けの結果を概観しよう. 変数名のラベルが重なって表示されているため,詳しくは見ることはできない. このデンドログラムから2〜4のクラスタに分けることができるように 見える.



      4. デンドログラムからクラスタ数を決めて,分析結果を要約しよう. メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「階層的クラスタリングの要約」を選ぶ.



      5. クラスタ数を決めて(ここでは3個)を決めて,「OK」ボタンを押す.





      6. 出力ウィンドウに分析結果が表示される. 3つのクラスはそれぞれ,56個,39個,28個のデータで構成されることが わかる.また,それぞれのクラスタの平均値も表示される.



      7. さらに,バイプロットにより,各データ間の類似度が 概観できる.バイプロットとは,データの第1主成分得点と第2主成分得点 の散布図である.また,第1主成分と第2主成分に対する各変数の 重みのペアもベクトルとして図示される.



      8. 階層的クラスタリングの分析結果をデータセットに保存しよう. メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「階層的クラスタリングの結果をデータセットに保存」を選ぶ.



      9. 分類するクラスタ数を指定して(ここでは3個),「OK」ボタンを押す.





      10. 分類されたクラスター番号が,変数 hclus.label に記憶されていることを確認しよう. メニューの下にある「データセットの編集」ボタンを押すと, データが表示される.





      11. 分類されたクラスターごとに色を変えて,散布図を 描いてみよう.ここでは,変数 x1 を横軸に,変数 x2 を縦軸に.











      12. 散布図にデータの番号を表示するために,「入力ウィンドウ」に "text(cexam$x1+xinch(0.1),cexam$x2,cexam$no)" と入力し, 「入力ウィンドウ」の右下の「実行」ボタンを押す.



    3. クラスター分析(非階層的)
      つぎに,非階層的なクラスター分析を行う.
      1. メニューの「統計量」から, 「次元解析」→「クラスタ分析」→「k-平均クラスタ分析」を選ぶ.



      2. 分析対象の変数(ここでは x1 〜 x4) を選び,クラスタ数を 指定し(ここでは 3),さらに,「データセットにクラスタを 割り当てる」にチェックを入れて,「OK」ボタンを押す.



      3. 第1主成分と第2主成分の散布図(バイプロット)が 表示され,クラスターへ分類した様子が視覚的に確認できる.



      4. 出力ウィンドウに分析結果が表示される. 3つのクラスはそれぞれ,47個,42個,34個のデータで構成されることが わかる.また,それぞれのクラスタの平均値なども表示される.