来自:Unsplash
这篇文章是讽刺作品,利用虚假的可视化来传播假信息并不酷。这篇文章要教你如何识别假信息。
你是不是有什么故事需要讲给别人听?或许你在工作中有什么预测,现在需要证明一下?也许有人在X上说你的政治观点不对,所以你需要一些反击的论据?
数据可视化通常是在数据分析中的最后一层,用于快速直观地展示洞察。受众群体可以非常广泛,包括董事会成员、电视观众、政府官员和社会媒体的追随者在内的各种受众。然而,尽管他们各不相同,他们通常有几点共同之处。他们通常不具备数据技术的专业知识,而且他们通常没有时间去详细钻研。这使得数据可视化成为操纵受众的绝佳手段,不论数据内容如何,不论你想要传达的故事是什么。
通过真实的例子,本文深入探讨了数据高手使用的四种高级技术,无论原始数据的实际含义如何,这些技术都能让数据高手传达他们想要的信息。以下是这些技术包括:
- 删除不必要的数据点
- 利用心理模式
- 选择性分类数据
- 策略性地调整阅读体验
到本文结束时,你的工具箱将准备就绪,能够以最具说服力的形式——统计数据——来散布错误信息。
指摘:以下为摘要- 有选择地删除或打乱数据通常足以支撑矛盾的叙述。
- 对于没有时间进行批判性分析数据的受众来说,利用如红色代表好,绿色代表坏的心理暗示就足以影响他们。
- 唯一阻止操纵数据的方法就是在你发现时揭露它。
如果你关心健康生活,你可能已经知道畅销书《为什么我们会睡觉》(Why We Sleep,中文译名《为什么我们会睡觉》)的作者是马修·沃克(Matthew Walker)。健康书籍并不是随意登上《星期日泰晤士报》畅销书榜单的第一位。那么,《为什么我们会睡觉》是如何取得如此非凡的成就的呢?如果你读过这本书(就像我一样),你就会确切地知道为什么了。这是一本极具说服力的非虚构作品,几乎让人感到恐惧,其核心信息是:如果你不重视睡眠,你将遭遇各种健康问题。
不仅是信息本身有说服力。这本书包含了大量的学术研究和数据分析,这些都无可辩驳地支持了书中的叙述。读到最后,毫无疑问——书中的信息是真实的,少数开明的人就会走出去告诉别人也该读这本书。对于出版社来说,最终的结果是获得了数千万美元的收益。我相信企鹅出版社肯定也对马修·沃克赞赏有加,并且自己也得到了几百万美元作为奖励,这是自然的。
马修·沃克做得非常出色,以确保叙述完美无瑕,他省略了与观点相悖的数据。没有提到关于不足的睡眠没有负面影响甚至有益的研究。更令人印象深刻的是,书中使用的数据分析没有多余的数据点!
例如,当我们讨论运动中受伤的可能性与平均睡眠时间的关系时,书的第129页展示了该研究论文的结果。图表显示了四个数据点:6小时=72%,7小时=60%,8小时=34%,9小时=18%。构建该图表的数据来自发表在《儿科骨科杂志》上的文章“慢性睡眠不足会增加青少年运动员的运动伤害风险”,该研究的网址是这里。该论文的数据基本相同,唯一的不同是多了一个数据点:对于平均睡眠时间只有5小时的运动员,他们受伤的风险为54%。
为什么这个数据点会被排除在马修·沃克的图表之外?这个数据点出自同行评审的期刊,因此,理论上来说,它应该具有相同的可靠性。当然,答案是它不符合叙述。从睡眠最少最差到睡眠最多最好的图表看起来更合理。下次当你遇到一些不合意的数据点时,记住,你可以直接移除它们。既然这在企鹅出版社出版的一本书的作者看来是可以接受的,那么我们也应该接受,这位作者是来自加州大学伯克利分校的教授。
由作者利用Google Sheets来创建。
利用心理把戏这可能不像第一种技巧那么显而易见,但实际上它很简单。它主要是关于意识到人们看到图表时的本能反应,并利用这一点来为自己谋利。一些常见的感知模式有:
- 绿色 = 好
- 红色 = 坏
- 急剧增加 = 大幅增长
- 大 = 显著
- 相关性 ≠ 因果关系
福克斯新闻在这一类事情上做得很好(参见 https://www.researchgate.net/figure/The-original-Fox-News-bar-chart-cropping-y-axis-and-omitting-labels-Source_fig2_329075050)。然而,根据您的受众是否具备批判性思考您工作的能力,您可能需要根据受众调整使用这种技巧的程度。
作者用Google Sheets制作。
上面使用了一个流行的技巧,即将Y轴的起点设置为大于零。这样会让数据点之间的差异看起来更加显著,从而让读者觉得数据点之间的差异更加重要。当然,如果数据点之间的变化趋势与你的叙述相悖,你希望将Y轴的起点设置得尽可能低,从而让人感觉这些差异不那么重要。
另一种展示数据以符合你议程的方法是使用颜色。对大多数人来说,红色与坏事相关联。用一张图表展示一片红色区域可以非常有效地给观众带来恐惧、危机感和警觉。气候变化是一个特别适合用红色来表示的主题,因为红色也象征着热量和火焰。
在《澳大利亚气候危机与温室气体排放情况如何》(链接:https://www.theguardian.com/environment/datablog/ng-interactive/2022/oct/03/tracking-australias-progress-on-the-climate-crisis-and-the-consequences-of-global-heating)一文中,卫报的一个图表完美地使用了红色。
‘世界燃燒’版本的图表。作者使用 Tableau 制作的。数据来源为:2022 全球碳预算报告
看地图上,每个国家都被标成了红色,即使是那些化石燃料排放为零的国家,也被标成了粉红色。使用同样的数据,结果是,如果不用全红色的色谱,生成的图表看起来就没那么吓人,比如下面的图表。
‘只有部分地区的图表处于火灾状态’版本。作者用Tableau制作。数据来源:2022年全球碳预算
要谨慎地进行分类这种技术与省略数据有些相似。然而,它并不完全相同。省略数据只是将不需要的数据从视野中移除,而选择性分类则是将数据重新整理,直到找到一个合适的角度或解释。它也较少受到质疑,因此在需要对分析进行批判性评估的领域中更为常用,例如同行评审的期刊上发表的论文。
让我们从一个简单的例子开始来解释我所说的打乱数据是什么意思。假设我在研究一个村庄中每户的人口。这是我收集到的一些数据:
如果我想说明这一点,即这个村庄有很多户过于拥挤的家庭,我可以这样展示数据:
作者使用Google Sheets创建的。
我只是把5、6、7和8这几个数字合并成了一个数据点5+。最终结果是一个图表,其中人口最多的家庭类别显得最大。这正好契合我想要讲述的故事。
但,如果我不想那样。其实,如果我想传达完全相反的信息。我可以稍微调整一下这些数据,最后这样呈现数据:
比如
(这里可以根据具体数据和调整方式展示调整后的数据示例)
这是作者使用 Google 表格创建的。
在这里,我将0、1和2归为一组,3、4和5归为一组,6、7和8归为一组。正如你看到的,没有遗漏任何一个原始数据点,我已经彻底改变了这个故事。
这种方法在一个学术研究论文中被巧妙地应用了,该论文专注于研究更多的枪支是否减少或增加犯罪。约翰·洛特和大卫·马斯特德合著的一篇高引用率论文《犯罪、威慑与隐蔽携带枪支的权力》(Crime, Deterrence, and Right‐to‐Carry Concealed Handguns)提供了关于实施旨在增加街头枪支数量的手枪隐蔽携带法的惊人后果图表。
来源:《犯罪、威慑与隐蔽携带枪支的权利》由约翰·洛特和大卫·穆斯代尔所著,原标题为 “Crime, Deterrence, and Right-to-Carry Concealed Handguns”
再花点时间仔细看看这张图表在说些什么,因为它相当引人注目,这一点。它表明,暴力犯罪几乎都是由于缺乏隐蔽携带的手枪,这一点从数据的一致性可以看出,即犯罪率在引入手枪法规后平稳下降。那么,作者们是如何制作出这样引人注目的图表的?
首先,它利用了模式心理学原理,通过将Y轴的起点设定为大于零。其次,也是最具影响力的是,它有选择性地定义了什么是以及什么不算是“暴力犯罪”,“隐蔽持枪法规”,以及研究中的“人口数据”。例如,在暴力犯罪类别中,他们选择允许持枪抢劫和袭击行为,但不包括未使用枪械的抢劫,例如使用刀具。为什么?因为,持枪法实施后,抢劫和袭击的行为实际上增加了,这与文中的论述相矛盾。但是,如果仅选取暴力犯罪中的这一部分,即持枪抢劫和袭击行为,它们在实施持枪法后实际上有所下降。
同样,某些地区和年份被排除在人口样本之外。这些地区和年份在实施隐蔽携带手枪法后暴力犯罪激增。作者给出的理由是由于“更高的毒品价格”,因此排除了这些地区和年份的人口。这不是我编造的,参见第24页“犯罪、威慑与携带隐藏手枪的权利”。
再重复几次这种选择性分类,voilà——瞧,完美的图表!
调整可读性,让它更符合战略需求如果你不幸不得不在图表中展示一些不太美观的数据,你可以使用最后一种技巧来保持叙述。让图表看起来非常不舒服。一个经典的做法是将数据以冰冷的表格呈现。例如:
这是作者用Microsoft Word制作的。
你读完了没?如果你读完了,那你比我更厉害。说实话,这些数据是不是在玩弄我,我真的分不清。我只知道那个难看的表格我真的不想看,你也不能强迫我看!
如果你有一些好的数据夹杂在会破坏故事线的糟糕数据中,那么就尽量让好数据容易理解。简单的线图或条形图就足够了。当然,把所有坏数据都做成表格。
结论致数据科学家、商业分析师、学术研究人员以及所有参与数据展示的人:操纵观众可能很容易,但这不酷炫。重要的是你要刻意检查你的工作是否使用了这四种技术。这可能并非故意,但确认偏见以及来自他人的压力确实会导致操纵数据的手段不知不觉地渗入你的工作中。
给所有数据使用者(也就是所有人): 希望这篇文章能帮助大家更好地审视和评判遇到的数据和统计信息。此外,我希望读者们在发现任何不良的数据伦理行为时,能够积极发声。不论是在线留言、发帖子、写博客、做视频,还是直接讨论,都是很好的方式,请勇敢地表达你们的看法,无论是发现什么问题。
如果你想要了解更多我对发现数据问题的见解,我鼓励你阅读我之前的文章,《不要被数据牵着走》(https://medium.com/towards-data-science/stop-being-data-driven-583b5e7abe7b),以及通过[Medium](https://medium.com/@caiparryjones96)关注我以获取未来的文章。如果你想让更多人看到这篇文章,请给它点个赞(或者50个👏)并在社交媒体上分享。感谢你的阅读。下次见,掰了!✌️
共同學習,寫下你的評論
評論加載中...
作者其他優質文章