[連載]フリーソフトによるデータ解析・マイニング 8回

GGobiとデータの視覚化

 

 

1. GGobiとは


GGobiは、高次元データを対話型かつダイナミックな視覚化システムXGobiWindows上で使用可能にし、さらに色を柔軟に管理することやXMLファイルを扱うことができるように改良したものである。

 主なグラフの種類は、2次元の散布図(scatterplot)、散布図行列(scatterplot matrices)、平行座標グラフ(parallel coordinate plot)、時系列グラフ(time series plot )、棒グラフ(bar charts)であり、各変数の組み合わせは自由に繰り返し置き換えることが可能である。また3次元、多次元空間で回転するダイナミックなグラフ環境が備わっている。

本稿では、まずWindows環境上のGGobiについて説明を行い、最後にR上のGGobiパッケージRggobiについて説明する。以下GGobiggobiと記する。

 

2.      ggobiのインストール

 ggobiに関しては次に示すURLから情報を得ることができ、自由にダウンロードすることができる。

 http://www.ggobi.org

http://www.ggobi.org/Download.html

ページを開き、図1に示すような画面の「Self-installing Windows binary 」からggobiをダウンロードし、ダウンロードされたソフトのアイコンをクリックするとggobiが自動的にインストールされる。

図1 ggobiのダウンロードページの画面

 

インストールが終了するとデスクトップの画面にggobiアイコンが生成される。

 

3. ggobiの操作とデータの視覚化

3.1 データの読み込み

ggobiのアイコンをクリックするとggobiが起動され、図2のようなggobi.exeダイアログボックスが開かれる。

 

2 ggobi.exeダイアログボックス1

 

ggobi.exeのメニューのFileOpenをクリックすると図3のようなデータファイルを読み込むダイアログボックスが開かれる。ggobiをインストールするといくつかのデータファイルがggobiのフォルダ中のdataというフォルダに自動的にセットされている。

以下では、その中のfleaというデータを用いて説明を行う。データfleaは複数の拡張子になっているが、ここでは拡張子がxmlになっているXMLファイルを用いることにする。図3のようにデータflea.xmlを選択し、[OK]ボタンを押すと図4のようにggobi.exeのダイアログボックスが変わり、また図5のような散布図(XYPlot, Scatterplot)画面が開かれる。

これでデータがggobiに読み込まれ、データを探索的かつ視覚的に考察を行うことができる。

 

   

3 データセットを読み込む画面     図4 ggobi.exeのダイアログボックス2

 

5 ggobiの散布図画面1

 

3.2 散布図

 図4に示すようなggobi.exeダイアログボックスの右段に示されているのは変数である。変数のX, Yボタンを押すことで、その変数を横軸(X)、縦軸(Y)にした散布図が作成される。

 メニューのViewModeIdentifyをクリックし、マウスのポインタを散布図の画面の点に合わせるとその個体に関する情報が返される。

 メニューのViewModeBrushをクリックし、マウスポインタを散布図の画面上でクリックすると四角マーカがマウスのポインタの位置に移動される。その四角の範囲内にいくつの個体が集中しているかかなどを確認することができる。ViewModeBrushを実行するとggobi.exeのダイアログボックスが次のようになる。

 

6  ggobi.exe画面コピー1

ggobi.exeのダイアログボックスの左段の[Choose color & glyph]ボタンを押すと散布図に用いる点の色と形を選択する図7のようなダイアログボックスが開かれる。

点の色や形を選択し、[Close]ボタンを押し、ggobi.exeのダイアログボックスの左下部にある[Color & glyph groups…]ボタンを押すと図8のようなダイアログボックスが開かれる。ダイアログボックスSymbolを右クリックすると散布図の点の色と形が変わる。このように散布図の点の色や形、サイズを好みに合わせて設定することができる。

7 Choose color & glyphダイアログボックス

 

     

8 Color & glyph groups…ダイアログボックス  図9 ggobiの散布図画面2

 

3.3 グラフの種類

 図10にggobi.exeメニューのDisplyを開いた画面コピーを示す。ggobiでは図10に示す5種類のグラフを作成することができる。

 Scatterplotは上記で示した散布図で、Scatterplot Matrixは図10に示すような散布図行列である。

 

       

10 Displayメニュー画面           図11 散布図行列

 

parallel coordinates display12のような平面座標図である。平面座標図は、1つひとつの変数を横軸に等間隔で配置し、その値の大小を縦軸で示した多次元データのグラフである。平方座標グラフでは、Optionメニューで線を描くかか、描かないかを選択することも可能である。図13に線を描いていない平行座標グラフを示す。

 

  

12 平面座標グラフ1 

 

13 平面座標グラフ2

 

 Barchartは図13のような棒グラフである。このような棒グラフでは、グループの重なりの度合いが確認できる。

 

14 棒グラフ

 

  Time Seriesは時系列のデータのグラフを作成する。時系列グラフを作成するためには、時系列データを読み込まなければならない。dataフォルダの中にはpigs.xmlという時系列データがある。15にpigs.xmlの時系列グラフを示す。

 

15 時系列グラフ

 

3.4 ダイナミックなグラフ

 メニューViewModeのサブメニュー画面コピーを図16に示す。メニューの中の1D Tour2D TourRotation2×1D Tourはいずれも動的なグラフである。Rotation3次元空間に3変数のデータを対応付け、角度を自動的に変えて見せる動的なグラフである。このようなグラフは特にクラスター分析の考察に有効である。図17Rotation画面コピーを示す。3変数の組み合わせはダイアログボックスの変数ボタンを押すことで換えることができる。またダイアログボックスの右にグラフの動きの速度を調整するバーがある。バーを右に移動すると動く速度が早く、左に移動すると遅くなる。

 2D Tour3次元以上の変数を組み合わせた動的グラフである。

 

    

16 ViewModeメニュー画面       図17 Rotationの画面

 

 これ以外にもggobiには多く機能があるが紙面の都合によりこれ以上紹介する余裕がないのが残念である。ggobiのホームページには40ページに上るマニュアルがある。

 

4. Rggobi

 ggobiRバージョンをRggobiと呼んでいる。Rggobiのインストールはggobiより若干煩雑であり、機能も多少限定されている。

Rggobiggobiと同じのサイトからダウンロードすることができる。

 

インストールの手順

(1)          各自のマシンにダウンロードする。

(2)          解凍する。

(3)          解凍されたフォルダの中から、Rggobiフォルダをコピーし、Rがインストールされているlibraryフォルダの中に貼り付ける。Rをインストールする際、インストールのフォルダについて特別な指定を行わなかった場合には、通常libraryまでのパスはC:\Program Files\R\rw****\libraryである。

(4)          パス(Path) を通す(Windows XPを例としてその手順を説明する)

A)             「スタート」⇒「コントロールパネル」⇒「システム」を右クリックし、「システムプロパティ」ダイアログボックスを開く。

B)             「システムプロパティ」ダイアログボックスの「詳細設定」タブを右クリックする。

C)             「詳細設定」のダイアログボックスの[環境変数]ボタンを押し、「環境変数」ダイアログボックスを開く。

D)            「環境変数」ダイアログボックスの「システム環境変数(S)」のPATHの行を右ダブルクリックし、「システム変数の編集」ダイアログボックスを開く。「システム変数の編集」ダイアログボックスの「変数値(V)」のテキストボックスにRggobidllファイル(Rggobiの中拡張子がdllになっているファイル)が入っているフォルダまでパスを入力する。通常dllファイルはRggobi\libsの中にある。

E)             [OK]ボタンを押し、すべてのダイアログボックスを閉じる。

(5) コンピュータを再起動する。

 

Rggobiを使用するためには、Rを起動し、まずパッケージRggobiをロードしなければならない。

 

>library(Rggobi)

 

次にirisデータを用いてggobiの使用方法を簡潔に説明する。

 

>data(iris)

>ggobi(iris[,1:4])

 

を実行すると、次の図のようなダイアログボックスとデータの散布図画面が開かれる。

 

    

18 Rggobiのダイアログボックス      図19 Rggobiの散布図1

 

ggobiの主な機能はRggobiで実行することが可能であり、操作の方法も基本的には同じである。またRのコンソール上でコマンドにより操作するのも可能である。

XML形式で作成したデータファイルを用いるためには、XML形式のデータファイルを指定したフォルダの中に入れておかなければならない。

Rggobiのフォルダの中にはdataというフォルダがある。XMLデータファイルをフォルダdataの中に入れておくと、Rに読み込むことができる。例えば、irisデータのXML形式のデータファイルを作成しlibrary\Rggobi\dataフォルダに入れると、次のコマンドでRggobiに読み込むことができる。

 

>ggobi(system.file("data", "iris.xml", package="Rggobi"), args= "-noinit")

 

20にirisの平面座標グラフ、図21にirisの動的グラフの画面コピーを示す。

irisXMLデータセットを作成していない場合は、iris.xmlの代わりにflea.xmlなどdataフォルダの中にあるデータを用いてRggobiを体験することができる。

 

20 Rggobi平行座標グラフ

 

21 Rggobi2D Tourグラフ