《统计陷阱》书评
(山东农业大学, 泰安 271000)
摘要: 《统计陷阱》是美国统计学家达莱尔·哈夫所撰写的统计学名著, 由廖颖林于2002年6月进行了翻译, 该书从1954年一直到出版至今, 多次被重印并同时被翻译为多国语言版本, 是一本影响十分深远的经典性统计学著作。在我们的日常经济生活中, 人们会逐渐接触到越来越多的统计数据和相关资料、文件, 例如各种证券信息、大量的表格分析数据、投资可行性研究报告、公司性财务报告等, 至于这些资料和数据如何去伪存真、如何以有效的方式进行鉴别, 《统计陷阱》这本书明确回答了这些问题。总体而言, 这是一本十分强调统计思维和逻辑的书籍, 它通过揭示统计数字背后的陷阱和易让人产生迷惑性的误导, 以帮助读者更好地去理解和运用统计数据, 深究统计学内部的智慧和奥秘[1]。
关键词: 统计学, 逻辑思维, 投资, 批判性思维, 数据分析
DOI: 10.48014/jcss.20241029002
引用格式: 刘士豪. 《统计陷阱》书评[J]. 中国统计科学学报, 2024, 2(2): 10-14.
文章类型: 书评
收稿日期: 2024-05-14
接收日期: 2024-06-11
出版日期: 2024-06-28
《统计陷阱》该书是由美国著名的统计学家达莱尔·哈夫的所著作的名著。该书自1954年出版至今,多次重印并被翻译成多国文字版本,因此,该书是一本影响力深远的经典性统计学著作。书中的案例丰富多样,其中有一个较为经典的案例,讲述的是冰淇淋销量与溺水事故数量的正相关关系。某研究机构进行了一项研究,发现某地区冰淇淋的销量与溺水事故的数量呈正相关关系。基于这一发现,他们得出结论:冰淇淋销量的增加导致了溺水事故的增多。这一结论存在明显的统计陷阱,即错误地将两个相关事件归因为因果关系。具体来说,研究者忽略了可能存在的其他影响因素,如气温的升高。实际上,气温的升高可能导致两个结果:人们更多地购买冰淇淋以消暑;更多的人选择游泳以降温,从而增加了溺水事故的风险。案例揭示了统计陷阱在科学研究中的常见性和危害性。它提醒我们,在分析两个变量之间的关系时,要考虑可能存在的其他影响因素,并进行深入的分析和验证,同时也应保持对统计数据的敏感性和批判性思维,避免被表面的数据所误导。
《统计陷阱》一书之所以历久弥新,主要是因为它具备很强的实用性。随着我国经济的持续发展和快速进步,我们在未来会接触到越来越多的统计数据和资料,例如很多国家权威机构公布的各种统计数据等,在海量的数据面前,如何做到去粗取精、去伪存真地进行鉴别,就显得格外重要,所以这些问题自然就摆在我们面前。这也是一本强调统计逻辑思维的书,虽然书中出现了一些相关的统计术语和方法引导等。即使是初学者,阅读后也能掌握书中的统计方法和核心思想。
本书具有独具匠心的逻辑和思维行文结构。从第1章直到第9章,作者将自己想象为一个手段多样、技艺高超的“惯骗”,并正在向后面的人面授各种行骗的方法和技巧。协助行骗的工具包括很多,其中有:有偏的样本、精心选出的平均数、遗漏的某些重要的数据、样本的误差、统计图、直方图、混淆相关关系与因果关系等等。对于每一种工具的功能和使用契机与场合,作者在书中都做了详细的说明。第10章可以算是最后一个总结性的章节,在该章中,作者摒弃了前9章所使用的惯用描述手法,直面地阐述了人们“面对统计资料”应该所该提出的五个问题,分别是:(1)“谁说的?”(2)“怎么知道的?”(3)“有哪些遗漏部分?”(4)“偷换了概念与否?”以及(5)“此资料是否具备意义?”因此,通过寻找这5个问题的答案,读者在过程中能够初步判断资料是否真实且可信。该书原著的标题为“How to Lie with Statistics”,这里的标题有多种翻译方式,可以直译为《如何利用统计撒谎》。这样基本能体现本书前9章的行文风格,但考虑到作者的最终目的是“识破谎言”,由此最终将译名定为《统计陷阱》。
在对各类不同来源的统计数据进行处理和利用的过程中,证券市场是一个最具代表性的应用场景[2]。由于利益的驱动指使,会涌现一些“大胆”的公司,它们为了抬高股价或垄断钱财而刻意操纵财务报表和信息。在此基础上,如果投资者根据虚假的财务数据进行了相关投资,那么极有可能造成之前所有的投资付之于流水。因此,为了对众多数据准确地进行辨别,那么了解并掌握这些公司幕后的操纵造假手段是非常必要的。资产重建、资产评估以及关联交易等都足以成为利润虚增的方法和伎俩,而其中的每一种手段还可以多种形式存在。我们以关联方交易为例,它可以销售给掌控市场的股东和非控股子公司,同时也可以是持有不同控股股份的子公司之间的交易[3],亦可以是上市公司之间的溢价行为,也可以是采购控股子公司的产品和劳务所形成的固定资产。以下是一些分析的典型事例:
美国安然公司(Enron Corp.)就是一个很好的实例,安然是金融创新的巨擘,它所发明的一系列金融创新工具及衍生产品极其复杂;而同时安然也是操纵财务报表的大师,它有意识地隐瞒了大量的重要信息及高度复杂的关联交易,安然公司的财务报表多年以来在华尔街上其实无人能够真正理解,而且几乎无人敢于挑战。从这个角度来看,安然无疑是数据陷阱大师。众所周知,中国证券市场上类似的例子也层出不穷,其高明程度虽然远逊于安然,但是这种“统计陷阱”也迷惑了众多的投资者。
“五一”“十一”等由假期创造的无限商机已经广泛引起各旅游公司、交通运输部门以及住宿和餐饮餐馆等各部门的高度重视。如何对假期经济加以正确引导并规范模式,这已经成为越来越多人们所格外感兴趣的课题。公司为了获得全国消费者的旅游习惯和消费偏好的第一手资料,其中某一家公司曾展开过一个抽样调查统计,即根据已有数据资料:旅游总收入中来自农村消费者部分的收入仅占总消费额的20%以下,所占比例较低。因此该公司为简化调查,剔除了比例较低的农村消费者,转而将调查对象定为其他25个城市的6400多个居民。这里暂且先不看调查结果,仅从该公司的调查方式中,我们便可以肯定地得到部分结论:该调查结果不足以支持和说明全国消费者的旅游习惯。虽然来自农村消费者的旅游经济收入只占旅游总收入很小一部分的比例,但由于地区经济水平的差异,城市内的消费者与农村消费者的消费偏好和消费习惯总是存在很大的差异。[4]因此,用仅包含城市消费者的样本去说明既包括城市消费者又包括农村消费者的全国所有消费者旅游偏好,明显是不合理的。
上面只是显示经济活动中的两个例子,该书还告诫我们在生活中我们可以接触到各种各样的谎言和信息,我们每个人都需要对各种信息进行识别和鉴定,因此,掌握《统计陷阱》该书中的工具是能够防止受骗十分可行的办法。培根曾经说过:“如果一个人能够以种种肯定的立论为开始,那么他必将终止于各种怀疑;但如果他十分愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。”这里,我想对数据资料的判断和接收来说也是如此。
《统计陷阱》在现代社会中具有广泛的新应用,特别是在大数据和人工智能领域大数据领域。在大数据分析中,数据质量是关键。《统计陷阱》提供了识别和处理数据偏差、误导性数据的方法,帮助大数据分析师确保数据的准确性和可靠性。大数据可视化是呈现复杂数据的有效方式,但也可能导致误导。《统计陷阱》中的滥用图形案例提醒我们,在可视化数据时需要注意图形的准确性和解释性,避免误导观众。在大数据挖掘和预测分析中,统计陷阱可能导致模型的不准确或误导性预测,有助于识别和处理这些问题,提高模型的准确性和可靠性。
在机器学习中,模型的性能评估是关键步骤。书中的原则有助于识别和避免在模型评估过程中可能遇到的误导性指标或方法。同时也能算法设计与优化。在人工智能应用中,伦理和责任是重要议题。《统计陷阱》中的原则有助于识别和避免在人工智能应用中可能存在的误导性数据或结论,从而维护人工智能的伦理和责任。书中提到的通过精心挑选的平均数来夸大其效果的情况,在人工智能应用中可能导致不公平的决策或歧视,需要确保数据的真实性和代表性,以避免这种误导性影响。
《统计陷阱》这本书对于我们学习统计也有着多方面的启发。即使在日常生活中,我们少有或从未涉足统计这个领域,也能从该书中获取很多思维和想法。培养批判性思维是该书所强调的一个重点,书中揭示了统计数字和图表中所可能存在的误导性,也强调了批判性思维的必要性[5]。在学习统计时,我们不应盲目地去接受统计数据,而应学会提出质疑、进行分析并加以评估数据的真实和准确性。这样能进一步理解《统计陷阱》书中所详细阐述的多种陷阱,如样本偏差、平均数误导等。样本偏差是一个核心概念,它指的是从总体中选择的样本并不代表整个总体特征的情况。这种偏差可能导致在分析和建模过程中出现错误,进而得出不准确的结论。平均数误导是指在统计和数据分析中,由于不恰当地使用或解释平均数而导致的错误结论或误解。在了解了这些陷阱后,定将有助于我们学习者在实际应用中避免陷入类似的误区偏见,进一步提高统计数据的解读能力。
对于学生而言,我们所了解到的统计学知识更是片面和有限的,因此在阅读该书的过程中,要格外重视统计的基本概念,哈夫在书中强调了理解统计基本概念的必要与重要性,如样本与总体的显著区别、平均数与中位数的不同和差异等。这些基础知识是学习统计的基石,只有掌握了这些概念,才能进一步去更好地理解和运用统计数据,提高学习和应用能力。面对统计数据时保持怀疑和审慎的态度,学会提出问题,培养好这种习惯,质疑数据的来源、方法和结论,方能深入地理解统计学的原理和应用[6]。
对于具备一定统计基础的读者或统计行业的从业者而言,书中通过相关的案例展示了统计陷阱在实际生活中的应用和危害所在。能够提醒具备一定基础学习者以及行业从业者在学习统计过程中不仅要注重理论知识的积累和学习,还要关注其在解决实际问题中的价值和应用。通过进行实践应用,读者可以更好地理解和掌握统计学中具备的知识和技能。
对于科研人员而言,《统计陷阱》这本书同样具有极高的价值,科研人员在进行研究时,时常需要处理和分析大量的统计数据。而《统计陷阱》这本书通过揭示统计数字和图表中可能存在的误导性,可以帮助科研人员更好地理解统计学的原理和方法,同样有助于科研人员在处理数据时更加准确、严谨,从而避免陷入统计陷阱。科研人员在面对统计数据时需保持怀疑和审慎的态度。这种思维方式对于科研人员来说很重要,在研究过程中需要不断质疑、分析和评估数据的真实准确性。同时,在阅读《统计陷阱》的过程中,科研人员可以更加深入地了解统计学在科研学科领域中的应用和局限性[7]。有助于他们与其他科研人员进行进一步更加深入的交流和合作,共同推动科研领域的不断继续进步。通过分享书中的案例和观点,科研人员还可以促进学术界对统计陷阱相关的关注和讨论,以提高整个学术界的统计素养和水平。数据的真实性对于维护科研诚信也至关重要,科研人员需要确保他们的研究结果是基于真实、准确的数据得出的,而不是受到统计陷阱的误导,在阅读这本书后,科研人员可以更加深入地了解统计陷阱的危害和如何避免它们,以进一步增强他们的科研诚信意识。
《统计陷阱》这本书对统计学领域也有着显著的贡献,《统计陷阱》面向专业统计人员,也向广大公众普及了统计学的基本知识和原理。通过这本书,公众能够更深入地了解统计数据的产生、处理和分析的过程,进而提升自己的统计素养。对于提高公众对统计数据的理解和鉴别能力,以及促进统计学的普及和应用同时具有重要意义。但书中也存在些许不足之处,尽管书中列举了多种统计陷阱和误导手段,但对每种陷阱的深入和应对策略略显不足。读者需在理解的基础上进一步自行研究和探索。书中未涉及复杂的数学公式和统计理论,这虽使得内容更加通俗易懂,但对于希望深入了解统计学原理的读者来说,可能会认为内容不够深入和全面。
该书引发了统计学界对问题的关注和讨论,推动了统计学研究和发展[8],促进了统计学方法和技术的改进和完善。该书鼓励统计学家们更加深入地研究统计数据的真实性和准确性问题,为统计学的发展注入新的活力和动力。同时也促进了统计学教育和培训过程的发展。通过揭示统计陷阱和误导现象,提醒统计学教育者和培训者需要更加注重培养学生的批判性思维和统计素养,为教育者提供了丰富的教学案例和素材,有助于他们更好地开展统计学教育和培训工作。
利益冲突: 作者声明无利益冲突。
[①] 通讯作者 Corresponding author:刘士豪,727348915@qq.com
收稿日期:2024-05-14; 录用日期:2024-06-11; 发表日期:2024-06-28
参考文献(References)
[1] Darrell Huff. How to Lie with Statistics[M]. 上海: 上海财经大学出版社, 2002.
[2] 汪远. 应用统计学在金融及证券领域的运用研究[J]. 财富时代, 2020(02): 53.
[3] 郑施杰. 基于统计学在市场经济管理中的影响研究[J]. 知识经济, 2020(10): 175+177.
[4] 闫坤如, 李宏. 大数据时代的“统计陷阱”及其规避探析[J]. 学术研究, 2020(05): 23-28.
[5] Statistical Pitfalls: Problems with the Statistical Representation of Fieldwork Data from Social Research[J]. Mediterr J Soc Sci, 2014, 5(20): 1448.
[6] Sterrantino A F. Observational studies: practical tips for avoiding common statistical pitfalls[J]. The Lancet Regional Health-Southeast Asia, 2024, 25.
[7] HAZEMANN R H. Various statistical pitfalls[J]. Sem Med Prof Med Soc, 1955, 31(13): 441-444.
[8] 王枫云. 发展中国家统计技术引进中追赶陷阱的防范与跨越机制[J]. 中国统计, 2014(08): 26-27.
Book Review of How to Lie with Statistics
(Shandong Agricultural University, Taian 271000, China)
Abstract: “How to Lie with Statistics” authored by American statistician Darrell Huff, was translated into Chinese by Yinglin Liao in June 2002. Since its initial publication in 1954, the book has been reprinted numerous times and translated into various languages, making it a classic work in statistics with far-reaching influence. In our daily economic life, people increasingly encounter statistical data and related documents, such as securities information, extensive tables of analytical data, investment feasibility reports, and corporate financial statements. The book “How to Lie with Statistics” provides clear answers to questions about how to discern truth from falsehood and effectively identify and evaluate such data. Overall, this is a book that emphasizes statistical thinking and logic. By uncovering the traps and misleading elements behind statistical figures, it helps readers better understand and utilize statistical data, while exploring the profound insights and intricacies of the field.
Keywords: Statistics, logical thinking, investment, critical thinking, data analysis
DOI: 10.48014/jcss.20241029002
Citation: LIU Shihao. Book review of How to Lie with Statistics[J]. Journal of Chinese Statistical Sciences, 2024, 2(2): 10-14.