对于许多旁观者而言,传统数据分析、大数据和人工智能是全然不同,且毫不相关的事物。然而,《像数据达人一样思考和沟通》这本书将要匡正这样的认知,并指出这3个领域事实上是高度相关的。它们都涉及统计思维,而一些传统的分析方法,例如回归分析、数据可视化技术等,对这3个领域同样适用。统计学中的“预测分析”与人工智能领域的“监督式机器学习”基本上就是一回事。而且,大多数的数据分析技术也适用于各种规模的数据集。简而言之,一位优秀的数据达人可以高效地处理好这3方面的工作,而花费大量时间去细究它们之间的差异则往往是无用功。固有观念2: 只有专业的数据科学家才能成为“数据热潮”中的弄潮儿。
人们有时对数据科学家盲目崇拜,认为只有他们才有可能有效地处理和分析数据。然而,近来兴起了一阵全新的、极为重要的潮流,旨在让数据思维变得更加全民化。越来越多的机构开始注重培养普通员工的数据思维和数据分析能力。自动化机器学习工具使得人们可以更轻松地建立数学模型,并利用模型出色地完成预测工作。当然,我们仍需要专业的数据科学家负责开发新算法,并为那些进行复杂数据分析工作的普通员工把关。但是,一些单位选择把与数据分析相关的工作交给单位中那些“非科班出身”的数据达人负责,这样做往往能够让数据科学家专注更重要的工作。固有观念3: 数据科学家无所不能,他们掌握着从事数据活动所需的全部技能。
数据科学家是受过专业训练,从事模型开发和代码编写工作的人。人们往往想当然地认为,数据科学家同样能够包揽模型的实际应用工作。换句话说,人们认为数据科学家是无所不能的。但实际上这样的人凤毛麟角。对于一个数据科学项目来说,那些不仅了解数据科学的基础知识,而且了解所处行业、能够有效地管理项目,并擅长建立业务关系的数据达人才是无价之宝。他们不但能够胜任数据科学工作,还能提升数据科学项目的商业价值。固有观念4: 人们需要具有非常高的数学天赋,并经受大量训练,才有可能在数据和分析方面取得成功。
一个相关的假设是,为了从事数据科学工作,人们必须在该领域接受过良好的培训,因此一个数据达人也必须非常擅长和数字打交道。数据方面的天赋与训练固然对从事数据科学相关工作有帮助,但《像数据达人一样思考和沟通》这本书中的一个观点令我深感认同: 一个拥有动力的学习者能够掌握数据和分析知识,并在数据科学项目中贡献力量。部分原因是,统计分析的基本概念远没有那么深奥;同时,想要参与数据科学项目,也并不需要极高水平的数据和分析能力。与专业数据科学家协作,或是参与自动化人工智能项目,需要的只是提出关键问题的能力和好奇心、在业务问题和定量结果之间建立联系并识别出可疑假说的能力而已。固有观念5: 如果你在大学或研究生阶段的主要研究方向并非定量(quantitative)领域,那么现在学习数据和分析方法所需的知识就为时已晚。
这一观念甚至得到了调查数据的支持: 在Splunk公司于2019年对全球约1300名高管的调查报告中,几乎所有受访者 (98%) 都认为数据技能对他们未来的工作很重要。81%的高管认同数据技能是成为高级领导者所必需的,而85%的人认为掌握数据技能会让他们在公司中变得更有价值。尽管如此,仍有67%的人表示他们不习惯自己获取或使用数据,73%的人认为数据技能相较于其他业务技能更难习得,53%的人认为自己年纪太大,已经错过了学习数据技能的黄金时期。这种“数据失败主义”(data defeatism)对个人和组织都是有害的,而本书作者和我都认为这不过是无稽之谈。仔细阅读本书正文,你会发现其中不涉及任何艰深难懂的知识!
因此,抛开这些固有的观念吧,让自己成为一个数据达人。你将成为职场上更有价值的员工,并帮助你所在的机构变得更加成功。这就是世界的发展方向,是时候开始加入浪潮,更加深入地了解数据及其分析方法了。我相信,阅读《像数据达人一样思考和沟通》,探索数据科学,你将会收获一段富有价值且充满乐趣的旅程。前言对于本书的读者来说,无论主观意愿如何,数据或许已经成为你工作中最重要的一部分,没有之一。而你之所以翻开这本书,大概是因为希望能够了解数据究竟是怎么一回事。
首先,有必要重复一个老生常谈的问题: 在这个时代,每个人创造和接收的信息比以往任何时候都多。毫无疑问,现在是一个数字的时代。而这个数字时代也催生了一个充斥着承诺、行话和产品的行业,其中许多是翻开本书的你,你的经理、同事和下属正在或将要接触的。但是,尽管与数据相关的承诺和产品不断涌现,数据科学方面的商业项目却往往会很快就陷入失败。美国科技博客VentureBeat在2019年进行了一个调查,其中显示87%以上的数据项目以失败告终。
这里需要澄清一下,我们并非暗示所有关于数据的承诺都言之无物,或所有的产品都糟糕透顶。相反,要真正了解这个领域,必须首先接受一个基本事实: 事情远比我们想象的要复杂。从事数据方面的工作意味着与数字、细微差别和不确定性打交道。数据至关重要,这毫无疑问,但与此同时,它并不简单。然而,有一个行业却在试图让人们忽视这一点——这是一个在不确定的世界中试图承诺确定性,并利用公司对落伍的恐惧而牟利的行业。我们在本书中将其称为数据科学工业复合体(Data Science Industrial Complex)。
数据科学工业复合体
对于身处其中的每个人来说,数据科学工业复合体都是一个有待关注的问题。企业不断买入产品,期待它们能代替自己进行思考;经理们雇佣名不副实的专家;各种机构都在招聘数据科学家,却并没有做好迎接他们的准备;高管们不得不聆听无穷无尽的行业黑话,并假装理解。这样的现状造成了大量数据项目的停滞和资金的浪费。
像数据达人一样思考和沟通前言而与此同时,数据科学工业复合体却在以令人头晕目眩的速度生产着新的术语,令人难以把握这个行业所制造出的商机(以及风险)。甚至只消眨眼工夫,你就会错过新的重要内容。当本书的两位作者开始共事时,大数据正是时代的“宠儿”。随着时间推移,数据科学的概念流行起来。在那之后,机器学习、深度学习和人工智能闪亮登场,成为下一个焦点。
对于那些富有好奇心和批判性思维、善于思考的人们来说,这一现象看起来不甚合理。这些真的都是全新的问题吗?还是那些新定义不过是新瓶装旧酒,将旧的概念重新包装?
但一个更关键的问题是,如何才能对数据进行批判性思考和讨论?本书将用具体的案例进行说明。
阅读本书,你将会习得理解数据科学复合体所必需的工具、术语和思维;能够在更深层次上了解数据及其挑战,批判性地看待呈现在面前的数据与结论;并且能够明智地谈论与数据有关的种种事物。
简而言之,你将成为一位数据达人。
我们为何关心
在进入详细的讨论之前,有必要介绍一下为什么本书的两位作者如此关心“数据”这个话题。下面分享两个例子,用以说明数据是如何影响整个社会以及每一个人的生活的。
次贷危机
次贷危机爆发时,本书的两位作者刚从大学毕业。那是在2009年,找工作很难,但我们非常幸运地在美国空军谋到了职位,因为我们有一项当时人们亟需的技能: 处理数据。我们每天都在与数据打交道,努力将空军分析师和科学家的研究成果转化为政府可用的产品。美国空军雇佣了我们,这预示着整个美国都将要开始重视类似的职位了。作为数据工作者,我们对次贷危机产生了好奇与兴趣。
促成次贷危机的因素众多。把它列为本书中的一个案例,并非想要否定其他因素带来的影响。但简而言之,我们将其背后的原因归结为一起重大的数据失败事故。银行和投资者建立模型,为担保债务凭证(Collateralized Debt Obligation, CDO) 估值。可能有些人还记得,正是CDO这个投资工具使得美国市场陷入崩溃。
人们曾一度认为CDO是一种安全的投资,因为它们将与贷款违约相关的风险分散到多个投资单位。这样,即使投资组合中有少数违约,也不会对整个投资组合的潜在价值造成重大影响。
然而,经过反思回顾,我们知道某些基本的潜在假设是错误的。其中最主要的一条,莫过于认为违约是独立事件,即A拖欠贷款并不会导致B的违约风险。我们很快就能意识到,违约事件更像是多米诺骨牌,一次违约常常会带来连锁反应。当一笔债务违约时,其相邻房产的价值将会下降,这些相邻房产的违约风险就会相应增加。一次违约很快就能将周边的一整个街区拖入深渊。
把事实上存在联系的事物进行独立性假设是统计学中常见的错误。
但我们进一步深究这个故事就会发现,正是投资银行建立了高估这些资产的模型。本书后面将会说明,想要建立一个数学模型,必须对客观现实的某些维度进行简化,提出一些关于现实世界的假设,来试图理解和预测某些现象。
那么是谁在创造和解读这些模型呢?他们是为今天的数据科学家奠定基础的人,他们可能是统计学家、经济学家、物理学家,或是从事机器学习、人工智能和统计学相关职业的人。他们经常与数据打交道,而且聪明绝顶。
但就是这样一群每日与数据打交道的聪明人,还是在这个问题上出了差错。是因为他们在工作时没有提出正确的问题吗?还是说从分析师到决策者一次次的汇报和沟通中,每一个不确定性都被拆解、剥离,给人一种住房市场完全可以预测的错觉?相关人员是否在他们得到的结果上显而易见地撒了谎?
而更加与我们相关的是,如何在自己的工作中避免类似的错误?
我们提出了很多问题,却只能对答案做有限的推测。但有一点是很清楚的——次贷危机的背后是一场大规模的数据灾难。而且,这不会是最后一次数据灾难。
2016年美国大选
在2016年11月8日举行的美国大选中,美国共和党候选人唐纳德·J.特朗普击败了民意调查领先的民主党候选人希拉里·克林顿,赢得了大选。对于政治民意调查员来说,这一结果令人震惊。他们的模型并未预测到特朗普会当选。然而2016年本应是选举预测模型大放光彩的一年。
2008年,纳特·西尔弗(Nate Silver)在《纽约时报》的538博客成功地预测了巴拉克·奥巴马的胜利。当时,对于他的算法能否准确地预测选举,许多权威人士保持着将信将疑的态度。到了2012年,随着奥巴马的成功连任,成功预测了这一结果的西尔弗再度成为焦点人物。
那时,商业世界已开始接纳数据这一新事物并聘请了许多数据科学家。西尔弗对奥巴马连任的成功预测则再一次展示了用数据进行预测的重要性,以及其近乎神谕般的能力。商业杂志上的文章向高管们发出“通牒”: 要么现在就开始重视数据,要么就等着被数据驱动的竞争对手吞并。数据科学工业复合体正马力全开。
到2016年,每个主要新闻媒体都投资了一种算法来预测美国大选结果。他们中的绝大多数都认为,民主党候选人希拉里·克林顿将会取得压倒性胜利。但是他们都犯了巨大的错误。
如果将他们的错误与次贷危机相提并论,我们就能更深切地感受到这是一个多么严重的失误。有人会说,我们从过去中吸取了教训,对数据科学的关注将帮助人们避免重蹈覆辙。的确,自2008年以来,新闻机构聘请数据科学家,投资民意调查研究,创建数据团队,并花费更多资金确保数据质量。这就引出了一个问题: 投入这些时间、金钱、努力和教育,最终结果如何呢?纳特·西尔弗在一系列文章中详细地分析了这个事件(fivethirtyeight.com/tag/therealstoryof2016)。就像次贷危机的例子一样,一些民调网站错误地采取了独立性假设。
我们的推测
为什么会出现这样的数据问题?我们认为有3个主要原因: 问题本身的复杂性、批判性思维的缺乏、数据科学家与决策者的沟通障碍。
首先,正如我们之前提到的,数据是一个非常复杂的领域。许多数据问题从根本上来说都是很难解决的。即使公司拥有大量数据,运用了正确的工具和技术,并雇佣了最聪明的分析师,预测还是会出错。这并非是在指责数据和统计学,而是在陈述现实。
其次,一些分析师和利益相关者已经不再批判性地思考数据问题。数据科学工业复合体为人们描绘了一幅确定和简单的图景,而一部分人也选择了灌下这碗“迷魂汤”。也许这就是人性: 人们不愿承认他们对未来一无所知。但是为了正确地处理和使用数据,一个关键要点就是要认识到我们有可能做出错误的决策。想要认识到这一点,就必须坦率地谈论风险与不确定性,并确保每个人都能理解。不知为何,这类信息往往被遗失了。虽然我们曾希望,与数据分析相关研究和方法的巨大进步能够促进每个人的批判性思维,但最终结果却是它导致一些人失去了这种能力。
而持续引发数据问题的最后一个因素,则是数据科学家和决策者之间的沟通障碍。很多项目出发点非常好,但结果往往在沟通的过程中丢失或走样。项目的决策者缺乏理解数据的语言,因为没有费心培养自己的数据素养。而且,数据工作者也很难从商业的角度讲好一个完整的故事。换言之,二者之间存在着沟通的鸿沟。
工作场景中的数据
并非每个数据问题都足以引发全球金融海啸,或错判下一任美国总统,但这两个例子发生的情境仍然值得关注。如果说整个世界都密切关注的事件仍然会存在沟通障碍、误解和批判性思维的缺失,那么在普通的工作场景中,也极有可能发生类似的事情。在大多数情况下,微小的错误逐渐积累,就会营造出一个愈发缺乏数据思维的工作氛围。这在工作场景中时有发生,场景中的每个人都对此负有责任。
董事会上的一幕
想必科幻小说和动作电影的爱好者对这样的一幕不会感到陌生: 主人公面临难以逾越的难关,为此世界各国领导人和科学家齐聚一堂,讨论现状。这时,看上去最古怪的一位科学家提出了一个想法,并抛出无数深奥的行业黑话,直到某位领导人咆哮道: “说人话!”在这之后,观众将会看到一些阐释性的情节,用来说明先前剧情的含义。此类情节的目的,是将任务的关键信息转化成不仅主人公知晓,而且普通观众也能理解的事物。
作为美国联邦政府的研究人员,我们时常讨论此类电影桥段。为什么?因为现实中似乎从未有过类似的情节,我们在职业生涯早期的经历往往与此完全相反。
在展示工作时,我们面对的往往是茫然的目光、无精打采的点头,以及沉重的眼皮。台下的听众虽然困惑不已,但似乎对听到的一切毫无异议、照单全收。他们要么是被我们表现出的聪明才智折服,要么因为不知所云而感到无聊透顶。从来没人要求我们用所有人都能理解的语言重复之前所说的话。我们面临的场景截然不同,它往往是这样的:数据科学家: “我们使用多元逻辑回归方法,对二元响应变量进行了监督学习分析,发现样本外表现为特异性0.76,此外,当α为0.05时,有几个独立变量达到了统计显著。”
商业人士: (尴尬的沉默)
数据科学家: “我们说得清楚吗?”
商业人士: (依然沉默)
数据科学家: “有什么问题吗?”
商业人士: “暂时没有问题。”
商业人士的内心独白: “他们到底在说什么?”如果在电影中出现这样的一幕,人们或许会说“稍等,倒回去重看一遍,我应该是错过了什么”。但在现实中,尽管阐述的问题确实至关重要,这种情况却鲜少发生。没有人会倒回去重看,更没有人要求阐明。
现在回过头看,那些工作展示确实过于技术化。部分是出于单纯的固执: 正如前面说到的,在次贷危机之前,技术细节往往被过分忽略了,数据分析师只会说一些让决策者开心的话。而那时的我们打算改变这个风气,希望听众能听取我们真实的意见。但我们后来才意识到自己矫枉过正了——如果听众连听懂都做不到,自然更无法对内容进行批判性思考。
我们相信,解释数据应该有更好的方法,使得我们的工作产生价值。于是,我们开始练习向彼此及其他听众解释复杂的统计学概念,并询问他们解释得怎么样。
我们逐渐发现,数据工作者与商业人士之间存在着一个中间地带,在这里双方都可以开诚布公地讨论数据,这样的讨论既不会过于技术化,又不会过分简化。这个中间地带存在的前提条件是,双方必须从更具批判性的视角看待或大或小的数据问题,这也正是本书讲述的主要内容。
你有能力把握大局——数据分析第一课
为了更好地理解与处理数据,读者首先需要做到在面对那些乍一看十分复杂的数据概念时,摆脱抗拒心理。此外,如果你已经对这些数据概念有一些初步的了解,也能从这本书里学到该如何将其“翻译”成其他相关人士可以理解的语言。
人们在讨论数据时,常常会回避一些方面,即数据在很多公司中是如何失效的。但人们都需要了解这一方面,并且要培养面对数字与概念时的直觉、鉴别能力,以及适度的警惕。这听上去像是异想天开,但本书将会帮助读者轻松掌握这些知识和能力,并且不要求读者具有多么高超的编程技巧或学术水平。
本书将会借助清晰的讲解、思想实验与比喻说明来建立一个完整的知识框架,其中包含数据科学、统计学与机器学习。