4
DEIM Forum 2015 E2-2 高次元データ可視化のための低次元プロット表示の改良 酒井えりか 伊藤貴之 †お茶の水女子大学 112-0012 東京都文京区 2 丁目 1-1 E-mail: [email protected] あらまし 高次元データの可視化手法として,Scatter Plot Matrix (SPM) Parallel Coordinate Plots (PCP) などが知 られているが,これらの手法をもってしても次元が非常に高いデータにおける次元間の複雑な相関関係を発見する のは容易ではない.その解決の一手法として,高次元空間を低次元空間に分割し,各々の低次元空間を散布図やPCP などのプロット手法で表示する手法が知られている.しかし高次元空間を多数の低次元プロットで可視化する際に, 個々の低次元プロットが画面上で小さく表示されるために,視認性の点で問題が生じる.本報告ではPCPを構成す る折れ線群の束化,また外れ値となる折れ線の強調描画などを採用することで,小さく表示した場合にも重要な点 を見逃さないような可視化を実現する. キーワード 高次元データ,可視化手法,Parallel Coordinates Plot 1. はじめに 高次元データの可視化手法としてよく知られた手 法に, Scatter Plot Matrix (SPM) Parallel Coordinate Plots (PCP) があげられる. n 次元データが与えられた 時に, SPM は画面空間を n ×n の格子領域に分割し, その各々に散布図を表示する. PCP n 本の平行な座 標軸を並べ,その座標軸と交差する折れ線で高次元数 値を表現する.散布図では 2 変数の分布や相関関係を 把握することが可能であり,SPM では高次元データを 構成する全ての 2 変数ペア間の相関関係を観察するこ とが可能である. PCP では隣接する 2 軸間の折れ線が 平行に近いと正の相関を示し,交差していると負の相 関を示すことから,正または負の相関を有する 2 変数 をできるだけ隣接させるように座標軸を並べることで 高次元データ中の多くの相関を表現できる.このよう SPM PCP などの可視化手法を適用することで, 高次元データを構成する次元間の相関を視覚的に表現 することが可能である.しかしこれらの可視化手法を もってしても,次元が非常に高いデータにおける次元 間の複雑な相関関係を網羅的に表現するのは容易では ない. その解決の一手段として,高次元空間を低次元空間 に分割し,各々の低次元空間を散布図や PCP などのプ ロット手法で表示する手法 [1,2] が知られている.しか し高次元空間を多数の低次元プロットで可視化する際 に,個々の低次元プロットが画面上で小さく表示され るために,視認性の点で問題が生じる. 本報告では PCP による低次元プロットの改良手法を 提案する.本手法では PCP を構成する折れ線群の束化, また外れ値となる折れ線の強調描画などを採用するこ とで,小さく表示した場合にも重要な点を見逃さない ような可視化を実現する. なお我々は提案手法を,画面左側に低次元プロット の集合を,画面右側に次元の散布図を表示する形式の 可視化プログラムの上で実装している.本報告ではま 3 章にてその可視化プログラムを説明し,続いて 4 章にして低次元プロットの改良手法を示す. 2. 関連研究 2.1 低次元プロットの集合による高次元デー タの可視化 低次元プロットの集合による高次元データの可視 化手法に,鄭ら [1] や末松ら [2] の手法があげられる. 鄭らの手法 [1] では,高次元データから所定の基準に 基づき複数の 2 次元ペアを選出し,その各々に対して 散布図を生成する.ここで所定の基準とは例えば 2 元間の相関係数の絶対値の高さなどである.続いて生 成した散布図の各々のペアについて,散布図間の類似 度距離を算出する.この距離の集合によって構成され る行列を用い,グラフ配置または次元削減の各手法を 用いて散布図の理想位置を決定する.この可視化手法 により各々の 2 次元間の関係を独立に分析するだけで はなく,次元ペアと次元ペア間の関係を視覚的に表現 し,高次元に跨る数値傾向の理解を支援する. 末松らの手法 [2] は,散布図の代わりに低次元 PCP の集合で高次元データを可視化する手法を提案した. PCP を採用した理由は,散布図の集合による可視化で は個々の散布図は 2 次元ずつしか表現できないため,

format docx deim2015SAKAI j-3db-event.jpn.org/deim2015/paper/300.pdf3.2 低次元PCPの選択表示 3.1節に示した散布図に表示される各々の点は,PCP で表示する各々の座標軸に対応する.この手法では次

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • DEIM Forum 2015 E2-2

    高次元データ可視化のための低次元プロット表示の改良

    酒井えりか† 伊藤貴之†

    †お茶の水女子大学 〒112-0012 東京都文京区 2丁目 1-1

    E-mail: †[email protected]

    あらまし 高次元データの可視化手法として,Scatter Plot Matrix (SPM) やParallel Coordinate Plots (PCP) などが知

    られているが,これらの手法をもってしても次元が非常に高いデータにおける次元間の複雑な相関関係を発見する

    のは容易ではない.その解決の一手法として,高次元空間を低次元空間に分割し,各々の低次元空間を散布図やPCP

    などのプロット手法で表示する手法が知られている.しかし高次元空間を多数の低次元プロットで可視化する際に,

    個々の低次元プロットが画面上で小さく表示されるために,視認性の点で問題が生じる.本報告ではPCPを構成す

    る折れ線群の束化,また外れ値となる折れ線の強調描画などを採用することで,小さく表示した場合にも重要な点

    を見逃さないような可視化を実現する.

    キーワード 高次元データ,可視化手法,Parallel Coordinates Plot

    1. はじめに 高次元データの可視化手法としてよく知られた手

    法に,Scatter Plot Matrix (SPM) や Parallel Coordinate Plots (PCP) があげられる.n 次元データが与えられた時に,SPM は画面空間を n×n の格子領域に分割し,その各々に散布図を表示する.PCP は n 本の平行な座標軸を並べ,その座標軸と交差する折れ線で高次元数

    値を表現する.散布図では 2 変数の分布や相関関係を把握することが可能であり,SPM では高次元データを構成する全ての 2 変数ペア間の相関関係を観察することが可能である.PCP では隣接する 2 軸間の折れ線が平行に近いと正の相関を示し,交差していると負の相

    関を示すことから,正または負の相関を有する 2 変数をできるだけ隣接させるように座標軸を並べることで

    高次元データ中の多くの相関を表現できる.このよう

    に SPM や PCP などの可視化手法を適用することで,高次元データを構成する次元間の相関を視覚的に表現

    することが可能である.しかしこれらの可視化手法を

    もってしても,次元が非常に高いデータにおける次元

    間の複雑な相関関係を網羅的に表現するのは容易では

    ない. その解決の一手段として,高次元空間を低次元空間

    に分割し,各々の低次元空間を散布図や PCP などのプロット手法で表示する手法 [1,2]が知られている.しかし高次元空間を多数の低次元プロットで可視化する際

    に,個々の低次元プロットが画面上で小さく表示され

    るために,視認性の点で問題が生じる. 本報告では PCPによる低次元プロットの改良手法を

    提案する.本手法では PCPを構成する折れ線群の束化,

    また外れ値となる折れ線の強調描画などを採用するこ

    とで,小さく表示した場合にも重要な点を見逃さない

    ような可視化を実現する. なお我々は提案手法を,画面左側に低次元プロット

    の集合を,画面右側に次元の散布図を表示する形式の

    可視化プログラムの上で実装している.本報告ではま

    ず 3 章にてその可視化プログラムを説明し,続いて 4章にして低次元プロットの改良手法を示す.

    2. 関連研究 2.1 低次元プロットの集合による高次元データの可視化 低次元プロットの集合による高次元データの可視

    化手法に,鄭ら [1]や末松ら [2]の手法があげられる. 鄭らの手法 [1]では,高次元データから所定の基準に

    基づき複数の 2 次元ペアを選出し,その各々に対して散布図を生成する.ここで所定の基準とは例えば 2 次元間の相関係数の絶対値の高さなどである.続いて生

    成した散布図の各々のペアについて,散布図間の類似

    度距離を算出する.この距離の集合によって構成され

    る行列を用い,グラフ配置または次元削減の各手法を

    用いて散布図の理想位置を決定する.この可視化手法

    により各々の 2 次元間の関係を独立に分析するだけではなく,次元ペアと次元ペア間の関係を視覚的に表現

    し,高次元に跨る数値傾向の理解を支援する. 末松らの手法 [2]は,散布図の代わりに低次元 PCP

    の集合で高次元データを可視化する手法を提案した.

    PCP を採用した理由は,散布図の集合による可視化では個々の散布図は 2 次元ずつしか表現できないため,

  • 多数の次元にわたって観察される相関関係の理解が難

    しいと考えたからである.この手法により,高次元デ

    ータの中の多数に渡る相関を視覚的に把握することが

    可能となった. これらの手法では,低次元空間を表現する散布図や

    PCP をユーザ操作によって選択することができない.それに対して本研究では,ユーザの対話操作によって

    PCP を選択的に表示できる可視化環境を前提としている.本研究ではこの可視化環境下において,高次元デ

    ータ中の興味深い特徴を強調表示することを目標にし

    ている.

    2.2 次元の散布図 本報告では「次元の散布図」を,高次元データを構

    成する次元の各々をプロットすることで生成される散

    布図と定義する.次元の散布図を搭載した可視化手法

    の一例として,Yuan らが提案した Dimension Projection Matrix/Tree[3]があげられる.この手法では,高次元データを構成する個体をプロットした一般的な散布図と,

    次元の散布図とを左右に表示する.ユーザは両散布図

    上での対話操作によって,高次元データから興味深い

    部分空間を発見できる.この手法では MDS(多次元尺度法 )を用いて次元の散布図を生成している. 本研究においても MDS を用いて次元の散布図を生

    成するが,散布図の代わりに PCP を用いて低次元空間を表現することを前提とする.PCP を利用することで,3 軸以上にまたがる次元間の相関性を視認しやすくなる.本研究では,この環境において PCP の視認性を向上することを狙っている.

    3. 次元の散布図と低次元 PCPによる高次元データ可視化 我々は次元の散布図と低次元 PCPによって高次元デ

    ータを対話的に可視化する手法 [4]を開発している.この手法では画面の左側に低次元 PCP の集合を表示し,画面の右側に次元の散布図を表示する.

    3.1 次元の散布図 まず次元の散布図の生成手法を示す.この手法では

    多次元尺度法 (MDS: Multi-Dimensional Scaling) を用いて次元の散布図を生成する.MDS を用いることで,i 番目と j 番目の次元との距離 dijを画面上でできるだけ保持するように各次元を画面配置する.我々の実装

    では i番目と j番目の次元の相関係数を cijとした時に,この 2 次元間の距離を dij=1.0-| cij |と定義する.この定義によって計算された距離行列を MDS に適用することで,相関係数の絶対値が高い次元どうしは近くに.

    低い次元どうしは遠くに配置される. 本手法では後述の通り,PCP による低次元空間の可

    視化を目的としている.PCP は正または負の相関を有

    する次元間の関係を可視化するのに向いている.この

    ような次元群を対話操作によって抽出するためのヒン

    トとして,正または負の相関がある次元を近くに配置

    するような散布図が有用であると考えた.MDS の代わりに主成分分析を適用することも考えたが,主成分分

    析では負の相関を有する次元が近くに配置されにくい

    ため,本研究では採用しなかった.

    3.2 低次元 PCP の選択表示 3.1 節に示した散布図に表示される各々の点は,PCPで表示する各々の座標軸に対応する.この手法では次

    元の散布図上での選択操作によって,低次元 PCP を選択表示できる.具体的には,次元の散布図の上で特定

    の点群セットを選択することで,その点群セットに対

    応する次元群を低次元 PCP として表示する.

    4. 低次元 PCP の改良 PCP による高次元データの可視化では一般的に以下

    の 2 点が問題になりやすい. 1) 表示する座標軸の増加に伴い,非常に横長な画

    面空間が必要になり,視認性の低下をもたらす. 2) 折れ線の増加に伴い,折れ線が互いに絡み合い

    視認性の低下をもたらす. それに加えて, 3.2 節に示した操作によって多数の点群セットを選択することで,以下の問題も生じる.

    3) 多数の低次元 PCPを一画面に表示することになり,個々の PCP は画面上で小さく表示されることになってしまう.

    本手法ではこれらの解決のために PCPの改良手法を適用する. まず 1)に関する解決を論じる.本手法では次元の散

    布図を画面右側に配置している. 3.1 節でも論じた通りこの散布図は相関が高い次元を画面上で近くにプロ

    ットする.現時点の我々の実装では,ユーザによるド

    ラッグ操作で次元の散布図上に長方形を描き,その長

    方形内に入った次元だけを PCPで描画する対話処理機能を有する.このようにして次元の散布図を操作する

    ことで,ユーザは主観的に興味深い部分空間を指定し,

    低次元 PCP を対話的に可視化できる. また本手法では 2)3)の解決のために,形状的に類似する線分群を束ねて表示する「Bundling」という処理を適用する.Bundling は主にネットワークの可視化において広く活用されている [5].PCP においてもこれを適用することで,折れ線同士が絡み合い視認性が低下

    する問題を回避できると考える.また本手法では高い

    相関を有する次元群を選出して PCPで表示することを前提にすることができる.このとき,正の相関を持つ

    次元同士の要素を表す折れ線は平行に近く.これらを

    束にすることで外れ値を発見しやすくなると考えられ

  • る.さらにそうして発見された外れ値の折れ線の強調

    描画などを採用することで,PCP が画面上で小さく表示した場合にも重要な特徴を見逃さないような可視化

    を実現する. 本手法では PCPを構成する折れ線を色分け表示することを想定している.折れ線で表現される個体にラベ

    ルがつけられている場合には,ラベルで折れ線を色分

    けすることができる.ラベルがつけられていない場合

    にも,個体群にクラスタリングを適用することで,折

    れ線をクラスタ分類し,個々のクラスタに固有の色を

    割り当てることができる.このような色分け表示が適

    用された時に,本手法では例えば特定の色を割り当て

    られた折れ線群に対して Bundling を適用する,といった選択的な手段を提供する.

    5. 実行例 我々は本手法を Java Development Kit (JDK) 1.7.0 で

    実装した. 本手法は高次元データに関する汎用的な可視化手

    法であり,さまざまな分野の高次元データを対象にす

    ることができる.本報告では一例として,飛行機のデ

    ータを適用した例を示す. 図 2 に我々の実装における初期画面を示す.画面

    左側には 776 本の折れ線を含む PCP が表示され,右側には 76 個の点を含む次元の散布図が表示される.次元の散布図を用いたユーザ操作によって特定の次元だけ

    を選択し,PCP でその次元群のみを可視化することができる.

    図 2 実行結果 (初期画面 )

    全ての座標軸が表示されている初期画面(図 2)の

    PCP では,次元の軸また折れ線数が非常に多く視認性の低下が見られた.次元の散布図の左上部分に 4 つの点が集中配置されていた.これらの次元群を選択した

    実行結果を図 3 に示す.初期画面からはどの次元の間に相関が高いのか読み取ることは困難である.しかし,

    図 3 の画面左側の PCP から,これらの次元の間に相関が高いことがわかる.

    図 3 次元群選択

    776 本の折れ線を 5 つのクラスタに分類し,5 色で

    色分け表示した PCP を図 4 に示す.また Bundling を適用した PCP を図 5 に示す.Bundling を適用したことで折れ線の絡みが減少し Bundling していない色の折れ線群の特徴が視認しやすくなった.

    図 4 Bundling 適用前

    図 5 Bundling 適用後

    5. まとめと今後の課題 本報告では,高次元データを低次元プロットの集合

    で可視化するための PCP の改良手法を提案した.具体的には PCP を構成する折れ線群の束化や,外れ値となる折れ線の強調描画などを採用することで,各々の

    PCP が画面上で小さく表示した場合にも重要な特徴を見逃さないように工夫している.

  • 今後の課題として,追加機能として,まだ色分けさ

    れていない初期状態でもある閾値を基づいて選択的に

    Bundling を適用する機能を開発したい. 画面左側の PCP にもユーザ操作を導入したい.例えば,クラスタリング結果に基づいて色分けされた折れ

    線群に対し,特定の色の折れ線をクリックするとその

    色の折れ線に Bundling を適用する,といった操作を考えている.他にもスライドバーを用意し徐々に折れ線

    群が Bundle されていく,といった操作も考えている.また,PCP においては座標軸の並び順が視認性に大きな影響を与えるので,例えばユーザがクリックした順

    に座標軸を並べ替える,といった操作も考えている. 4.2 節にて議論した問題点の 2)に対して,Bundling

    以外の解決策を考案したい.例えば正の相関が高い折

    れ線は PCP 上では平行に近い位置関係を有するので,これを集めることで平行四辺形に似た形状で折れ線群

    が配置される.これを束にするのではなく1つの平行

    四辺形のように描画し,その透明度を調節することで,

    これに該当しなかった外れ値のような折れ線の強調表

    示を調節しやすくなると考える. これらの機能を開発した後に,さらに多種多様なデ

    ータを本手法に適用し,特定のデータに特化した PCPの表示方法についても検討と実装を進めたい.

    参 考 文 献 [1] Y. Zheng, H. Suematsu, T. Itoh, R. Fujimaki, S. Morinaga, Y. Kawahara, Scatterplot layout for high-dimensional data visualization, Journal of Visualization, 10.1007/s12650-014-0230-5, 2014. [2] H. Suematsu, Y. Zheng, T. Itoh, R. Fujimaki, S. Morinaga, Y. Kawahara, Arrangement of Low Dimensional Parallel Coordinate Plots for High-Dimensional Data Visualization, 17th International Conference on Information Visualisation (IV2013), pp. 59-65, 2013. [3] X. Yuan, D. Ren, Z. Wang, C. Guo, “Dimension Projection Matrix/Tree: Interactive Subspace Visual Exploration and Analysis of High Dimensional Data”, IEEE Trans. on Visualization and Computer Graphics, Vol. 19, No. 12, pp. 2625-2633, 2013. [4] T. Itoh, et al., High-Dimensional Data Visualization by Interactive Construction of Low-Dimensional Parallel Coordinate Plots and Scatterplots, (国際会議査読中 ). [5] D. Holten, Hierarchical Edge Bundles: Visualization of Adjacency Relations in Hierarchical Data, IEEE Transactions on Visualization and Computer Graphics, Vol. 12, No. 5, pp. 741-748, 2006.