许多来自社会科学和自然科学的同行,坚定地信奉数据作为研究证据的威力,但正如技术并不是中立的,数据并没有我们想象得那么客观。必须承认,从数据标准化,到采集、清洗,再到分析、讨论,每一阶段都充满人为的、主观的因素。另一方面,正如有学者所指出,尽管统计学家和计算机软件专家把统计分析变得不艰深,“他们的聪明才智使用户可以满足于在理论思维上知其然并知其所以然,却不需要在数理上知其然,当然更谈不上知其所以然。”(李连江《〈戏说统计:文科生的量化方法〉导言》)那么,作为用户,我们该如何穿越数据迷雾,“知其然”且“知其所以然”,并对其作出恰如其分的解读和正确、理性的认识?
其实,概述统计学原理及其与日常生活之关系,以此拆解“数据主义”迷思,免使我们沦为数据奴隶的同类型书籍,此前国内已出版不少。除极少数为国人所著,绝大多数为引进的外国学者著作。诸如《女士品茶:统计学如何变革了科学和生活》(2016)、《数据的真相:如何在数字时代做出明智决策》(2018)、《大数据时代的统计学思维:让你从众多数据中找到真相》(2018)、《错觉:AI如何通过数据挖掘误导我们》(2019)、《大数据:挖掘数据背后的真相》(2020)等,各有其优长与不足。概括地说,有的过于简单,有的较艰深、非得有一定基础才能读,有的举例太多、理论说明较少,有的实用性尚可存疑。
桑内·布劳的《数据如何误导了我们:普通人的统计学思维启蒙书》,不仅深入浅出地介绍大数据分析的发展历史及相关概念、支撑大数据分析的统计学基础知识,揭示了数据的常见错误、滥用和陷阱——很大程度上,要由研究人员的直觉、认知偏差和利益关联等负责,还向我们给出了面对数据时不必头晕目眩而可提出若干质疑及由此可形成的一整套数据批评标准、原则,帮助我们正确认识、使用数据,并在日常生活与学术领域发展出可能的、适合自己的数据抵抗、应对策略。由此,作者成功地实现了要“写一本适合所有人看的书”的目标。
▲《数据如何误导了我们:普通人的统计学思维启蒙书》,[荷]桑内·布劳著,冯皓珺译,广东人民出版社出版
毋庸讳言,该书也有其局限。无论全书架构还是各章,乍看都有“耸人听闻”的题目,正文的具体论述亦有可供商榷之处。如在论及大数据分析的历史时,侧重于述其源,即以南丁格尔对英国军队护理情况的数据采集、分析及可视化为代表,随着“民族国家”在19世纪的出现、现代官僚政治的发展,全人类迎来了广泛使用数据的时代,而较少论其流,尤其互联网诞生之后的变革、互联网头部企业不断创新的数据分析商业战略等问题;又如其论及“人们口中的算法到底是什么”时,仅举例说明算法可能被误用、滥用,却未分析目前常见、相对发展较成熟的算法类型,更未从技术层面简要讨论其各自之优劣,使人读来略感不足。
但世上岂有尽善尽美之书。正如《洪业传》中所言:
书是古人经验的结晶,好的坏的都有;就像有人摆了一桌筵席给你吃,你应该拣爱吃的吃,不好消化的不吃。古书的语言换了几次,所以看的时候要拣好的记着,其余的不要。里面的错误、前后矛盾的地方是难免的。但有些看来似是矛盾的地方,往往以后发现并不矛盾;但你专心去记那些,等于白费脑筋。
这一说法的要点,即善学者当学人之长,也大致适用于读近人、今人书及东洋、西洋书,甚至报章杂志、新媒体内容等一切读物。当然,严格说来,洪先生的这一认识亦非其独创,其实贯穿于自《吕氏春秋》以降的中国古代学人的阅读实践和理论传统之中。
另外,布劳和上举诸书有一共同之处,也不可不提。简言之,这些著作首先都提醒我们(无论是作为数据消费者,还是采集者、研究者,抑或是被采集的对象),虽身处大数据时代,但不必对数据迷信、崇拜,更不必向其俯首称臣,以全盘托出自己的隐私、让渡个人的基本权利为代价,换取某些短期内“有益”但从长期看来将危害无穷的“好处”,如对那些肆意窃取用户私隐的App坚决说不,警惕那些以各种名义出现的对人脸识别技术的滥用。其次,与采集、整理数据和数据可视化等工作相比,甚至是与数据本身相比,正确地解读、利用数据才是更重要的。而这一点,不仅是相信人文学术的一切议题皆可精确测量、计算(真的可能吗?)的“数字人文”研究需要注意的,也是数据科学领域、大数据相关各领域都需要共同面对的,甚至可以说,还是今时今日普通公民应具备的核心“数字读写能力”或谓“数据素养”之一。
作者:王 贺
编辑:薛伟平
责任编辑:朱自奋
*文汇独家稿件,转载请注明出处。