数据可视化三节课之二:可视化的使用( 二 )


比如上面的例子 , 将多类数据的箱线图放在一起 , 可以展示「分布」方面的「关系」;又比如 , 将多类数据的饼图放在一起 , 可以展示「构成」方面的「关系」;再比如 , 将多类数据的折线图放在一起 , 可以展示「趋势」方面的「关系」 。
在实际应用中 , 屠夫还是习惯将“「关系」类可视化方案”定义缩小一点 , 归纳为“基于坐标系”和“基于图”两种 。 基于坐标系的「关系」类可视化方案 , 包括散点图、气泡图、六边形分箱图、热力图和平行坐标系等 。 六边形分箱图和平行坐标系的使用比较少 , 热力图在上一节已经提过 , 这里介绍一下气泡图 。 气泡图可以理解为散点图的加强版 —— 将点换成圆 , 以圆的面积 (注意 , 不是半径) 多展现一个维度的信息 。
下面是一个气泡图的例子 , 作者加上了趋势线来表达气泡数据的相关性:
数据可视化三节课之二:可视化的使用文章插图
来源:instagram.com
基于图的「关系」类可视化方案 , 包括力导向图和弦图 。 力导向图的名字比较拗口 , 如果屠夫说“关系链” , 许多人应该会“哦”地一下恍然大悟 。 力导向图用节点代表对象 , 用连线代表对象之间的关系 。 比如下面的力导向图表达了抽象派艺术家们的社交关系 , 不难看出 , 关系网中最有影响力的关键节点是毕加索:
数据可视化三节课之二:可视化的使用文章插图
来源:moma.org
弦图则显得更优雅一些 —— 将圆的每一段表示一个对象 (相当于力导向图中的节点) , 再用贝塞尔曲线表示对象之间的关系 (相当于力导向图中的直线) 。 下面的例子是以弦图展现海外一些期刊之间的引用关系 , 屠夫选择观察《Science》的引用/被引用关系:
数据可视化三节课之二:可视化的使用文章插图
来源:well-formed.eigenfactor.org
四、Comparison · 比较第三大类是C · Comparison , 比较 。
「比较」类的可视化方案 , 重点在于不同数据之间的对比、突出差异点 , 和「关系」类的可视化方案正好是不同的出发角度 。 这类可视化方案一定绕不开的典型代表 , 是柱状图 。 屠夫在考察候选人的可视化功底时 , 必问的一道题是:直方图和柱状图有哪些区别?
我说的当然不是名称上的区别 (Histogram V.S. Bar Chart) :

  • 从应用角度 , 直方图常用于「分布」 , 而柱状图常用于「比较」
  • 从数据角度 , 直方图适用于连续型变量 , 而柱状图更适合离散型变量
  • 从制图角度 , 直方图的直方无间隔 , 而柱状图的柱形有间隔

数据可视化三节课之二:可视化的使用文章插图
来源:图之典柱状图的应用很广泛 , 看起来似乎很枯燥 。 其实只要做简单变化 , 柱状图的视觉效果也可以很惊艳 , 比如下面这张将柱状图和极坐标系结合的图表:
数据可视化三节课之二:可视化的使用文章插图
来源:behance.net
适合「比较」的图表还有很多 , 包括上面提到过的热力图、气泡图等等 , 这里屠夫还想再举的一例是雷达图 。 雷达图在许多游戏中出现 , 常表示人物的多维度属性或者能力值 。 既可以对比同一人物的不同维度 , 也可以对比不同人物的同一维度 , 看起来简洁而直观 。
下图是基于2013年NBA全明星球员绘制的雷达图:
数据可视化三节课之二:可视化的使用文章插图
来源:fastcompany.net
五、Composition · 构成第四大类是C · Composition , 构成 。