パラレルカテゴリ(: Parallel Categories)は高次元のカテゴリカルデータを視覚化および分析する方法。カテゴリカルデータ(質的変数)からなるデータの層別や偏りなどを把握できるツール[1]

mtcarsのパラレルコーディネートとパラレルカテゴリの比較。後者は適切にプロットできるように連続値をカテゴリ化してある

パラレルコーディネートと似ているが、パラレルコーディネートは連続値(順序尺度的な離散値も扱うことは可能)で相関関係等の把握に使われる(データを折れ線で表示)のに対し、パラレルカテゴリはカテゴリ・離散値で層別や構成比率を見る(データ比率を帯で表示)。パラレルカテゴリプロットとも呼ばれる。

概要

編集

パラレルコーディネート(平行座標:値を平行に配置した座標を通過する折れ線で表現)から着想しており、カテゴリカルデータの頻度を帯で表現しているという違いがある。2つ以上のカテゴリカルデータの数の比を帯の幅とし相対値で集計・スタックしたものであり、視覚的に構成比を把握することができる。

 
沖積図の例 Martinらの論文より

平行セット・パラレルセット(: Parallel Sets)の名称が使われることもあり、沖積図(ちゅうせきず, アルビアルダイアグラム : Alluvial Diagrams)に近い。なお、パラレルセットでは時系列や流れを扱わないことが多い一方、沖積図は元々時間の経過に伴うネットワーク構造の変化を表すために開発された一種のフロー図であり、時系列変化を扱うことが多くネットワークの時間もしくは状態間のフロー解析などに活用されている[2]

パラレルコーディネートに類似しており、パラレルコーディネートは連続値(もしくはカテゴリ値を強制的に数値化した値など少なくとも数字である必要がある)に用いられ、パラレルカテゴリでは離散値(数字に限らず文字列なども扱える)を扱う。パラレルカテゴリでは、値の頻度や割合、それらの偏りやアンバランスなどを把握できることが特徴。パラレルコーディネートは高次元は強いが大規模データには向かないものの、パラレルカテゴリは大規模データにでも問題ないため、ビッグデータに対応したプロットといえる[3]

開発経緯

編集

研究開発チームの一員であるRobert Kosaraによると、当時、質的属性データを可視化する手段がツリーマップ(: Treemap)やモザイクプロット(: Mosaic Plot)に限られていた。また、扱おうとしているデータが離散的であるにもかかわらず可視化する位置や長さなどが連続しており、両者が不整合であることが問題であった。属性値自体は文字のデータ、年齢層(子供か大人か高齢者か)、性別(男性か女性か)などであり、これらを集計して扱うには数値として扱う必要があり、かつこういったデータは、多くが名義尺度であって順序尺度ではない。つまり順序に意味を持たず、さらには階層構造を持つことがある[4]

このようなカテゴリカルデータを扱うことを目的としてパラレルカテゴリプロットが開発された。ツリーマップやモザイクプロットでは入れ子構造が使用されており高次元でのデータの理解や比較が必ずしも容易ではないが、パラレルカテゴリでは値を表現する軸を平行にレイアウトし表示しており、特に変数の数が多い場合により理解や比較がしやすい。また、このシンプルなレイアウトには効果的なインタラクションをデザインするのが容易になる利点もある[5]

インターフェイス

編集
 
Interractiveなパラレルカテゴリプロット

パラレルカテゴリではインタラクションが重要であり、ユーザがマウスカーソルを重ねると実際の値が表示されたり、属性や値の並べ替え、値の追加や削除ができるようにインターフェイスを設計することでより的確な内容把握ができる[6]

例えば図の事例ではデータ分析で有名なタイタニックのデータを可視化したものであるが、旅客クラス(Class:1,2,3)毎に生存者(Outcome:Syrvived=生存者[プロット中、緑色], Perished=事故死[薄青])の割合はさほど変わらない(すなわち裕福か否かは生存率にあまり関係なかった)が、性別(Gender:Male 男性, Female 女性)でみると女性の方がが圧倒的に高い確率で生還したことが見た感じだけで分かる[3]

脚注

編集
  1. ^ Julie, Steele; Noah Iliinsky (2010). “Section 12, Turning a Table into a Tree: Growing Parallel Sets into a Purposeful Project”. Beautiful Visualization. O'Reilly Media, Inc. ISBN 978-1449379865 
  2. ^ Rosval, Martinl; Bergstrom, Carl T. (2010). “Mapping Change in Large Networks”. PLoS ONE 5 (1): e8694. 
  3. ^ a b Riccardo, Mazza (2009). “4.2.4 Parallel Sets”. Introduction to Information Visualization. Springer. ISBN 978-1848824423 
  4. ^ Bendix, Fabian; Robert Kosara; Helwig Hauser (2005). “Parallel Sets: Visual Analysis of Categorical Data”. Proceedings of the IEEE Symposium on Information Visualization (IEEE Press): 133-140. 
  5. ^ Robert Kosara. “Parallel Sets”. 2022年8月26日閲覧。 “A tutorial by Robert Kosara”
  6. ^ Kosara, Robert; Fabian Bendix; Helwig Hauser (2006). “ParallelSets: Interactive exploration and visual analysis of categorical data”. IEEE Transactions on Visualization and Computer Graphics 12 (4): 558-568.