[連載] フリーソフトによるデータ解析・マイニング 第9回

GGobiとデータの視覚化

1.GGobiとは

  GGobi は、高次元データを対話型かつダイナミックな視覚化システム XGobi を Windows 上で使用可能にし、さらに色を柔軟に管理することやXMLファイルを扱うことができるように改良したものである。
  主なグラフの種類は、2次元の散布図 (scatterplot)、散布図行列 (scatterplot matrices)、平行座標グラフ (parallel coordinate plot)、時系列グラフ (time series plot )、棒グラフ (bar charts) であり、各変数の組み合わせは自由に繰り返し置き換えることが可能である。また3次元、多次元空間で回転するダイナミックなグラフ環境が備わっている。
  本稿では、まず Windows 環境上の GGobi について説明を行い、最後にR上の GGobi パッケージ Rggobi について説明する。以下 GGobi を ggobi と記する。

2.ggobiのインストール

 ggobiに関しては次に示すURLから情報を得ることができ、自由にダウンロードすることができる。ダウンロードサイト http://www.ggobi.org/downloads/ の画面コピーを次に示す。

図1 ggobiのダウンロードページの画面

  Windows の場合は、画面上の[GGobi for Windows]からダウンロードとインストールを行うことができる。インストールは、インストールの画面のボタンを押すだけの簡単な作業で済む。インストールが終了するとデスクトップの画面に ggobi アイコン が生成される。

3.ggobiの操作とデータの視覚化

3.1 データの読み込み

  ggobi のアイコンをクリックすると ggobi が起動され、図2のような GGobi のダイアログボックスが開かれる。

図2 GGobiダイアログボックス1

  GGobi のメニューの File⇒Open をクリックすると図3のようなデータファイルを読み込むダイアログボックスが開かれる。GGobi をインストールすると、いくつかのデータファイルが GGobi のフォルダ中の data というフォルダに自動的にセットされている。
  以下では、その中の flea というデータを用いて説明を行う。データfleaの拡張子はいくつある。ここでは拡張子が csv になっている flea.csv ファイルを用いることにする。図3のようにデータ flea.csv を選択し、[Ope]ボタンを押すと図4のように GGobi のダイアログボックスが変わり、また図5のような散布図 (XYPlot, Scatterplot) 画面が開かれる。
  これでデータが GGobi に読み込まれ、データを探索的かつ視覚的に考察を行うことができる。

図3 データセットを読み込む画面

  

図4 flea の散布図の操作画面と散布図画面

 散布図の変数の組み合わせは、操作画面のボタン操作で行う。

3.2 グラフの種類

  図5に GGobi メニューの「Disply」を開いた画面コピーを示す。GGobi では図5に示す5種類のグラフを作成することができる。
  Scatterplot は上記で示した散布図で、「New Scatterplot Matrix」をクリックすると、図6に示すような散布図行列が返される。

図5 Display メニュー画面

図6 散布図行列

  「New Parallel Coordinates Display」をクリックすると、図7のような操作画面と平面座標図が返される。平面座標図は、1つひとつの変数を横軸に等間隔で配置し、その値の大小を縦軸で示した多次元データのグラフである。平方座標グラフでは、Option メニューで線を描くか、描かないかを選択することも可能である。図8に線を描いていない平行座標グラフを示す。

  

図7 平面座標グラフと操作画面

  「New Barchart」は図8のような棒グラフである。変数の指定は操作画面を用いて入れ替えることができる。

図8 棒グラフ

  「New Time Series」は時系列のデータのグラフを作成する。時系列グラフを作成するためには、時系列データを読み込まなければならない。data フォルダの中には pigs.xml という時系列データがある。図9に pigs.xml の時系列グラフを示す。

図9 時系列グラフ

3.3 動的グラフ

  メニューの「View」では、1、2次元の静的、1、2、3次元の動的グラフを選択することができる。

図10 メニュー「View」画面

  メニューの中の1D Tour、2D Tour、Rotation、2×1D Tour はいずれも動的なグラフである。Rotation は3次元空間に3変数のデータを対応付け、角度を自動的に変えて見せる動的なグラフである。このようなグラフは特にクラスター分析の考察に有効である。メニュー「Rotation」をクリックすると図11の動的な3次(変数tras1, tras2,head) 元散布図が返される。3変数の組み合わせは操作画面の変数ボタンを押すことで換えることができる。また操作画面の右にグラフの動きの速度を調整するバーがある。バーを右に移動すると動く速度が早く、左に移動すると遅くなる。2D Tourは3次元以上の変数を組み合わせた動的グラフである。

  

図11 「Rotation」の画面

  これ以外にも ggobi には多く機能があるが紙面の都合によりこれ以上紹介する余裕がないのが残念である。

3.4 グラフとの対話

  図4に示す散布図を例とし、グラフとの対話方法について説明する。グラフと対話を行うたには、グラフ上の点がどの個体であるか、ある特徴を持っている点はどこに集中しているかを見るためには、点の形状や色などを指定する必要もある。その機能はメニュー「Interraction」で行う。メニュー「Interraction」のリストを表1に示す。

表1 ニュー「Interraction」のリスト
リスト キーによる操作 機能
 XYPlot  Ctrl+H  2次元散布図
 Scale  Ctrl+S  遠近、左右の調整
 Brush  Ctrl+B  ブラシでポイントを指定 
 Identify  Ctrl+I  個体の識別
 Edit Edes  Ctrl+E  点と点を変で結ぶ
 Move Point   Ctrl+M  点を取り除く

  メニュー「Interraction」⇒「Scale」をクリックすると図12のような操作画面が返される。操作画面の左側の[Zoom]の上の操作バーは横軸のズーム、下側のバーは縦軸のズームである。[Pan] の上にバーは散布図を左右に、下のバーは上下に移動するバーである。

図12 [Scale]の操作画面

  メニューの「Interraction」⇒「Brush」をクリックすると操作画面が図13のように変わる。

図13 Burshの操作画面

  操作画面の左上のボタン [Choose color & glyph…] で散布図の点の種類と色、バックグラウンドの色をデザインすることができる。ボタン [Choose color & glyph…] を押すと散布図に用いる点の色と形を選択する図14のようなダイアログボックスが開かれる。

図14 Choose color & glyph ダイアログボックス

  左下の [Background color] の下の正方形が示す色が現在のバックグランドの色である。色の指定は、正方形の部分をダブルクリックして、あらわれた色の調整画面で自由に指定する。色の調整画面コピーを図15に示す。

図15 色彩を指定する画面コピー

  色彩の調整を行い、[閉じる] ボタンを押すとバクグラウンドの色が指定した色になる。

4.Rggobi

  GGobi のRバージョンを Rggobi と呼んでいる。Rggobi のパッケージは CRAN ミラーサイトからダウンロードできる。
  Rggobi を使用するためには、Rを起動し、まずパッケージ Rggobi をロードしなければならない。

> install.packages("rggobi"); library(rggobi)

  次に iris データを用いて ggobi の使用方法を簡潔に説明する。

> ggobi(iris[,1:4])

を実行すると、次の図のようなダイアログボックスとデータの散布図画面が開かれる。

  

図16 Rggobiの操作画面             図17 Rggobiの散布図

  Rggobi を用いると、R上XML形式のデータを直接操作することができる。Rggobi のフォルダの中には data というフォルダがある。XMLデータファイルをフォルダ data の中に入れておくと、Rに読み込むことができる。例えば、iris データのXML形式のデータファイルを作成し library\Rggobi\data フォルダに入れると、次のコマンドで Rggobi に読み込むことができる。

> ggobi(system.file("data", "iris.xml", package="rggobi"), args= "-noinit")

  図18に iris の平面座標グラフ、図19に iris の動的グラフの画面コピーを示す。
  iris のXMLデータセットを作成していない場合は、iris.xml の代わりに flea.xml など data フォルダの中にあるデータを用いて Rggobi を体験することができる。

図18 Rggobi の平行座標グラフ

図19 Rggobi の2D Tour グラフ

3.3 散布図

 図20に示す GGobi ダイアログボックスの右段に示されているのは変数である。変数のX, Yボタンを押すことで、その変数を横軸(X)、縦軸(Y)にした散布図が作成される。
  グラフの種類を指定する。たとえば、「Rotation」「Interraction」⇒「Identify」をクリックし、マウスのポインタを散布図の画面の点に合わせるとその個体に関する情報が返される。
  メニューの「Interraction」⇒「Brush」をクリックし、マウスポインタを散布図の画面上でクリックすると四角マーカがマウスのポインタの位置に移動される。その四角の範囲内にいくつの個体が集中しているかなどを確認することができる。「Interraction」⇒「Brush」を実行すると GGobi のダイアログボックスが次のようになる。

図20 GGobi画面コピー1

  GGobi のダイアログボックスの左段の [Choose color & glyph] ボタンを押すと散布図に用いる点の色と形を選択する図21のようなダイアログボックスが開かれる。
  点の色や形を選択し、[Close] ボタンを押し、GGobi のダイアログボックスの左下部にある [Color & glyph groups…] ボタンを押すと図22のようなダイアログボックスが開かれる。ダイアログボックスSymbolを右クリックすると散布図の点の色と形が変わる。このように散布図の点の色や形、サイズを好みに合わせて設定することができる。

         

      図21 Choose color & glyph ダイアログボックス  図22 Color & glyph groups …ダイアログボック    図23 ggobi の散布図画面2