数据可视化三节课之二:可视化的使用

编辑导读:对于经常需要用数据、做分析、理逻辑的投资者来说 , 数据可视化是一项利器 。 它能够帮助我们快速发现规律、找到原因 , 做出判断 。 如何使用数据可视化呢?本文将从可视化方案的五大类进行分析 , 希望对你有帮助 。
数据可视化三节课之二:可视化的使用文章插图
上次屠夫以《可视化的意义》开启了数据可视化系列 , 解答了3个问题:

  • 「数据」可以用来做什么?
  • 「分析」能解决哪些问题?
  • 「可视化」的意义是什么?
今天 , 我们将推进到「可视化的使用」 , 帮大家更好地理解这个工具 。
一、可视化方案该怎么选?上一节课里 , 屠夫总结过:
一方面是过程 , 一方面是结果 , 看似泾渭分明的两部分 , 在实际的数据分析工作中是相辅相成的 。
许多时候 , 我们做数据分析是带有探索和挖掘性质的 , 上一阶段的分析结果可能会成为下一阶段分析的方向 。 选出合适的可视化方案 , 不但有助于表达当前阶段的分析结果 (承前) , 还有助于开启下一阶段的分析思路 (启后) 。
想在数据分析中选出合适的可视化方案 , 得先了解我们的“选项”都有哪些 。 可视化的图表数量繁多 , 再加上可以使用的元素组合 (比如色彩) , 可谓千变万化 , 逐一列举自然是不可能的 。 但是 , 可视化方案其实可以归纳为「D·R·C·C·T」5大类 。 只要熟知这5大类 , 就能做到对数据可视化应用自如 。
二、Distribution · 分布第一大类是D · Distribution , 分布 。
如果要选出自己最常用的可视化类型 , 屠夫的答案一定是「分布」 。 分布之于可视化 , 就如清蒸之于烹调 ——方法不复杂 , 但最大限度地保留了食材的本来味道 。 它以最原汁原味的方式展现数据特征 , 让我们对分析对象有初步认知 。
「分布」类可视化的典型代表包括散点图、直方图和箱线图 。 这3种分布类可视化 , 其实我们在中学课程里都学过 , 但大部分人都低估了其作用 。
数据可视化三节课之二:可视化的使用文章插图
来源:r-graph-gallery.com
比如这一张简单的箱线图 , 其实把4类数据的最小值、25%分位数、中位数、75%分位数、最大值和样本量 (箱子的宽度) 全部展现在我们眼前:
  1. 考虑样本量的多寡:D类最多 , B类最少……
  2. 考虑value值的离散:B类最集中 , C类最分散……
  3. 考虑value值的大小:A类最大者小于B类最小者……
「分布」类可视化方案中也有一些不常见的图表 , 比如屠夫曾在《给我3枚硬币》用过的平行坐标系:
数据可视化三节课之二:可视化的使用文章插图
来源:columbia.edu
上面的平行坐标系展现的是上世纪70、80年代的32款汽车在每加仑汽油行驶的里程 (mpg) 、气缸数 (cylinders) 、引擎大小 (displacement) 等维度下的分布情况 。 可以看出 , 当时的汽车气缸数分布比较集中 (4、6、8) , 但是车身重量 (weight) 的分布却非常分散 。 又比如上半年大家经常看的地理热力图 —— 结合地图和颜色后 , 以简单清晰的方式把数据分布展现出来:
数据可视化三节课之二:可视化的使用文章插图
来源:北京大学可视化与可视化分析实验室
「分布」类可视化 , 是解决数据分析问题的良好开端 。 屠夫并不指望这类可视化能获得最终答案 , 但却是迈向最终答案的第一步 。 一份数据集到手 , 无论分析的目标是什么 , 先看看分布 , 准没错 。
三、Relationship · 关系第二大类是R · Relationship , 关系 。
「关系」类的可视化方案 , 侧重展示的是数据的相关性和关联关系 。 从广义上说 , 任何一类可视化都可以通过添加“系列”实现展示数据的关系 (如果有的话) 。