- 主成分分析
- データの読み込み
まず,csv形式と呼ばれる,個々のデータがコンマで区切られた形式の
データファイルを読み込む.
- メニューの「データ」から,
「データのインポート」→
「テキストファイルまたはクリップボードから」を選ぶ.
- 読み込んだデータに R 用の名前(データセット名)を指定して,
ファイルの形式の詳細を指定する.下の例では,@データセット名が「Seiseki」,
Aファイルの1行目に変数名があることをチェック,Bフィールドの区切り記号が
カンマであること(フィールドとは,データファイルの列のこと),
C小数点の記号がピリオドであること,を指定している.これらを指定してから,
一番下の「OK」ボタンを押す.
- 読み込むデータファイルを指定する.
- 読み込んだデータの中身を確認しよう.
メニューの下にある「データセットの編集」ボタンを押すと,
読み込んだデータが表示され,修正もできる.データを見るだけなら,
「データセットを表示」ボタンでもいいが,そのボタンを押すと
ハングアップする不具合があるみたいだから,押さないように.
- 散布図行列を表示する
読み込んだデータは,第1列が No で,第2列以降が Japanese, Social_study,
mathematics, science, English の5つの変数から構成されている.5つの
変数の関係を視覚的にとらえるために,2つの変数をペアにして,散布図を
描くことにする.そのような,表状態に散布図を並べたものを散布図行列と
という.
- メニューの「グラフ」から, 「散布図行列」を選ぶ.
- 表示対象の変数を選ぶ.ここでは,No 以外の5つの変数を選ぶことにする.
飛び飛びの複数の変数を選択するときは,Ctrl キーを押しながら,選択すればよい.
各散布図に最小2乗法による直線を表示するか,散布図の中心を通る滑らかな
曲線(平滑線)を描くかを指定することができる.さらに,行列の対角線上に
描くグラフの種類を指定することができる.ここでは,密度プロットを
選んである.
- 散布図行列が表示されたら,各変数間の関係や,対角線上に並んだ各変数の分布などを
確認しよう.
- 主成分分析
- メニューの「統計量」から,「次元解析」→ 「主成分分析」を選ぶ.
- 主成分分析で用いる変数を選択したり,その他の細かな設定をする.
この例では,@No 以外の5つの変数を Ctrl キーを使って選び,
A相関行列に対して行うのか,共分散行列に対して行うか,
B固有値の大きさを比較するスクリープロットを描くかどうか,
C計算した主成分得点をデータに追加するか,を
決めて,「OK」を押す.
- スクリープロットを見ながら,何番目の主成分得点まで
データセットに追加するかを決める.
- 主成分と固有値が計算され,表示されるので,各主成分の解釈を考えよう.
- メニューの下にある「データセットの編集」ボタンを押して,
追加された主成分得点を表示してみよう.
- 主成分得点の散布図を描く準備として,「スクリプトウィンドウ」
に "attach(Seiseki)" と入力し,「実行」ボタンを押す.
- 第1主成分と第2主成分の散布図を描くため,
「スクリプトウィンドウ」
に "plot(PC1,PC2)" と入力し,「実行」ボタンを押す.
- 散布図の各点がどのデータを表しているか,明示するために,
「スクリプトウィンドウ」
に "text(PC1+xinch(0.1), PC2, No)" と入力し,「実行」ボタンを押す.
文字の位置を上にあげたい時は,text(PC1+xinch(0.1), PC2+yinch(0.2), No) などのように第2引数に yinch(数字)を加えればよい.また,-xinch(0.2) のようにプラスをマイナスに変えると,左や下に移動する.さらに,文字の大きさを変更したい場合は,
text(PC1+xinch(0.1), PC2+yinch(0.2), No) を実行する直前に,
par(cex=0.5) のようにすればよい.cex=1 が標準的な大きさで,0.8 のように1より小さくすると小さい文字,1.5のように1より大きくすると大きい文字になる.