bookloveru2
データビジュアライゼーション (data visualization)
更新日:2021年1月2日
皆様、こんにちは。
今回は、【データの視覚化】をテーマにした記事を書きます。
目次
❶データビジュアライゼーションは何か❓
❷データ視覚化における重要な点(ゲシュタルトの法則)
❶データビジュアライゼーションは何か❓
データビジュアライゼーションとは、文字と数字で表されるデータを、グラフ等で図示することを言います。
当記事では【データの視覚化】を、
売上高や気温といった数値データをグラフとして可視化し、伝えたい情報を分かり易く、正確に且つシンプルに加工して表現したものだと定義します。
つまり、
可視化……数値データをただグラフ化したもの。
(アート性や簡潔性は考慮しない。誤謬性多い。)
視覚化……数値データをグラフ化する際、読み手に、伝え手の意図や事実を簡潔かつ正確に
伝達できる様、配慮してグラフ化したもの。
(折れ線グラフや棒グラフ、配色、色相、彩度、2D(二次元)、3D(三次
元等を選別し、端的に表現。アート性・簡潔性有り。誤謬性少ない。)
と説明できます。
1960年代にアメリカ海軍で生まれた「KISSの法則」というものがあり、
KISSは「Keep it simple, stupid」の略です。
要するに、「簡潔さを保て。愚か者。」ということです。
文字や数値をグラフ化して読み手に伝える行為では、簡潔さと分かり易さ、そして誤謬の少なさが大切だ。ということです。
昨今、データサイエンティストやAI、データは石油、ビッグデータ、データ解析etc..
といった言葉を頻繁に見聞きしますが、もちろんデータを取り扱う手法や確率、統計手法等も大事なのですが、肝心な最後の表現方法が軽んじられている気がします。
どんなに高度な機械学習、応用数学、python、Rを駆使してはじき出した解析結果でも、伝わらない、もしくは誤解を与える伝え方だと、せっかくの解析結果も価値が毀損してしまいます。
その為、今回はデータのビジュアル・見せ方(データビジュアライゼーション)について書いていきます。
では、まずこちらのグラフをご覧ください。

これは、一般的な棒グラフ(縦)です。
横軸に日付(時系列)をとり、縦軸にサイトのクリック数をプロットしています。
また、50クリック数毎に、補助線が引かれています。
次に、折れ線グラフです。

先程の棒グラフでは、グラフ作成者が何を伝えたかったのか、分かりにくかったのですが、
折れ線グラフにすることで、時系列のトレンドが把握できるようになりました。
これは、「日々の詳細なクリック数が何クリックであるか?」
ということより、「大まか、こんなクリック数で推移していますよ。」
という傾向を示すことに適しています。
先述した、棒グラフで「ふむふむ。(・_・D フムフム。2020.4.25はおおよそ、60クリックか。」みたいなことを探るほど、暇な人はいないでしょう。
つまり、「棒グラフは量の比較」・折れ線グラフは「トレンド」を表現するという、グラフごとの見せ方に違いがある、ということが分かります。
ここで、悪い例として、下の2つの図を挙げます。


当たり前ですが、上の図は凡例や数値ラベルが多すぎて、何を伝えたいか分かりません。
下の図は、シンプル過ぎて、「は?」というレベルです。
更に、トドめの、「情報全部入りグラフ」が👇です。

これには、回帰直線や標準誤差、日付、クリック数、クリック数移動平均線など、諸々全部入りで、ありがた迷惑な典型グラフとなっています。
グラフの作り手は、各機能を使用できて満足かもしれませんが、これを見せられる方は、目が疲れるし、情報が多すぎて、脳に負担がかかり、処理するのに多大な労力を要します。
上記の悪い例を避けるために、データビジュアライゼーションという分野が、昨今のデータ社会において、注目を浴び始めています。
❷データ視覚化における重要な点(ゲシュタルトの法則)
では、【データの視覚化】において、気を付けることは何なのでしょうか?
ここで、ゲシュタルトの法則を紹介します。
近接の法則
類似性の法則
囲い込みの法則
閉鎖性の法則

1.近接の法則は、位置的にお互いが近接している物体同士が同じグループと見なされやすい。というもの。上図でいえば、左上の▲(オレンジ)に当たります。
2.類似性の法則は、色や形といった同じ視覚属性を持つ者同士が同じグループと見なされやすい。おいうもの。上図でいえば、▲(オレンジ)と〇(青)です。
3.囲い込みの法則は、線や枠で囲まれた者同士は、視覚属性が別であっても同じグループと見なされやすい。上図でいえば、▲(オレンジ)と〇(青)を繋いだ線です。
4.閉鎖性の法則は、一部が欠けたように見える物体は、欠けた部分が補われやすい。
というのがゲシュタルトの法則の一部です。
これらを意識するだけで、ビジュアライゼーションはグッと向上します。
気になる方は、web等で詳細を確認して見て下さい。
さて、次に、昨今テレビニュース等でよく見る詐欺グラフについて説明します。
まず、下の3Dグラフを見て下さい。

これは、クリック数とその割合を、3D円グラフで記載したものですが、手前の「190クリック・18%」のフォントがその他よりも大きく誇張され、更に他と切り離して手前に飛び出る様にプロットしたことで、右奥の「209クリック・20%」や左奥の「213クリック・20%」より、強く情報を受け取るという、誤謬が起きます。
この様に3Dグラフでは、グラフの作り手自身が、誇張したいことだけを印象付けるグラフが作成できるのです!\(◎o◎)/!
アンケートや選挙等にこういった、グラフが使用されている場合、そのメディア媒体をまず疑いましょう。
ちなみに、データビジュアライゼーションをよく知っている人は、まず、3Dプロットを使いません。上記の様な現象が起きてしまうことをよく知っているからです。
参考👇先程と同じデータの通常の円グラフ

まとめ
現在ほどデータが蔓延し、身近に溢れている時代はありません。
しかし、IT企業の躍進やスマートフォンの普及、半導体技術の向上によって、これからも、データがモノをいう時代が加速します。
だからこそ、データを正しく、簡潔に、分かり易く伝達する手法がより大切になってくるのです。
日本は欧米やその他諸外国に比べ、データリテラシーが圧倒的に低い国です。
データリテラシーが低い理由は、教育ではなく、「難しいITへ目を背けてきた企業体」「年功序列社会」「KKD(勘・経験・度胸)に頼った仕事振り」といった、日本の悪しき伝統が生んだものだと思料しています。
データリテラシーが低い人ほど、「ITだ。AIだ。データ解析だ。」とわめいているようにも見えます。
今回は、そういった社会に憤りを感じるだけでなく、私自身も学び続けなければ、取り残されてしまう、という思いから、何か形を残そうと思い、記事にしました。
良かったら、一緒に勉強していきましょう!(^^)!
では、ばいちゃ。
今回参考にした書籍は、下記の本です。
興味のある方は読んでみてください。
データビジュアライゼーションの教科書 Kindle版
2,400円(税別)