David Donoho:数据科学 50 年

数据科学 2025-03-31 185 次浏览 0 条评论 次点赞

本文译自 David Donoho (2017): 50 Years of Data Science,发表在 Journal of Computational and Graphical Statistics 杂志。在正式发表前数年,其初版就广为流传,引发了学术界深入、持续的讨论。原文以 1962 年 Tukey 的著名文章 The Future of Data Analysis 作为数据科学元年,如此来算数据科学迄今已逾 60 年。故译本文以为纪念。 Donoho 是斯坦福大学统计系教授及人文与科学学院 Anne T. and Robert M. Bass 讲席教授。他在关于稀疏数据、小波分析、图像的稀疏表达、凸优化、压缩感知等领域的工作, 在统计、 数学、 电子工程等学科和产业界有着深远的影响。Donoho 是美国国家科学院院士、法国科学院外籍院士。他曾经获得过麦克阿瑟奖、约翰 · 冯 · 诺依曼讲座奖、邵逸夫奖等。

64f78ee1d49618f094e64111_vationventures_datascience.jpeg

本文译者:于嘉傲,审校:魏太云、邱怡轩,为了便于网页阅读,对表格、脚注进行了调整,并更新了失效的网页链接。原文链接:https://doi.org/10.1080/10618600.2017.1384734,统计之都中文译本:https://cosx.org/2023/03/50-years-of-data-science-cn/

摘要

50 多年前,John Tukey 曾呼吁对学术统计学(academic statistics)进行改革。在 “数据分析之未来”(The Future of Data Analysis)文章中,他指出:存在一门尚未被认识到的科学,其研究主题是从数据中学习,或者说“数据分析”。10 至 20 年前,John Chambers、吴建福(Jeff Wu)、Bill Cleveland 和 Leo Breiman 不约而同地再次敦促学术统计学将其边界扩展到理论统计学的经典领域之外;Chambers 呼吁更加重视数据准备和数据展示,而不只是统计建模;Breiman 呼吁强调预测而不是推断。Cleveland 和吴建福甚至为这个设想中的领域提出了一个朗朗上口的名字“数据科学”。最近一个日益增长的现象是,包括加州大学伯克利分校(UC Berkeley)、纽约大学(NYU)、麻省理工学院(MIT)在内的诸多大学都开设了“数据科学” 项目,其中最知名的是密歇根大学(University of Michigan)于 2015 年 9 月宣布的 “数据科学计划”,该计划预计耗资 1 亿美元,招聘 35 名新教师。这些新项目的教学在课程主题上与传统统计课程有很大的重叠;然而,许多学术统计学家将新项目视为“新瓶装旧酒”。本文回顾了当前“数据科学时刻” 的一些组成部分,包括最近媒体上广泛传播的关于数据科学的讨论,以及数据科学与统计学的区别。现在设想的数据科学领域相当于统计学和机器学习领域的超集,它增加了一些 “扩展” 到“大数据”的技术。这个超集是由商业而非才智发展驱动的。这样的选择,很可能会错过未来 50 年真正重要的才智活动。因为所有的科学本身都将很快成为可以挖掘的数据,所以数据科学即将发生的革命不仅仅是 “扩大规模”,而是会激发全学科范围下的数据分析科学研究。在未来,我们将能够预测,改变数据分析工作流程的提议将会如何影响所有科学领域数据分析的有效性,甚至逐个领域预测影响。在借鉴了 Tukey、Cleveland、Chambers 和 Breiman 的工作后,我设想了未来“从数据中学习” 的工作者们的数据科学活动愿景,并描述了一个致力于以循证方式改进这一活动的学术领域。这一新领域比今天的数据科学计划更好地扩大了统计学和机器学习的学术范围,同时能够实现同样的短期目标。本文基于 2015 年 9 月 18 日在新泽西州普林斯顿 Tukey 百年研讨会上的演讲。

1 今天的数据科学时刻

2015 年 9 月,在我准备这些演讲时,密歇根大学发布了一项耗资 1 亿美元的 “数据科学计划”(DSI),其将最终聘请 35 名新教师。

该大学的新闻稿包含一项大胆的声明:

“除了实验、建模和计算之外,数据科学已经成为科学发现的第四种方法,” 教务长 Martha Pollack 说道。

DSI 的网站给出了数据科学的定义:

“数据科学是科学发现和实践的结合,它涉及:收集、管理、处理、分析、可视化和解释与各种科学、转化和跨学科应用相关的大量异质数据。”

这一计划并非孤例。最近开始了许多类似的数据科学计划,包括

(A) 学校层面的计划,比如在纽约大学、哥伦比亚大学、麻省理工学院……

(B) 数据科学的新硕士项目,比如在伯克利、纽约大学、斯坦福大学、卡内基梅隆大学、伊利诺伊大学……

每周都有此类举措的新公告出现。

2 数据科学与统计

我在 Tukey 百年纪念大会上的许多听众都是应用统计学家,他们认为他们的职业生涯便是上述 “…… 收集、管理、处理、分析、可视化和解释与各种应用相关的大量异构数据”。事实上,Tukey 百年纪念会上的一些演讲的确是这一连串工作的典范。

对统计学家来说,数据科学计划(DSI)似乎令人费解。统计学家们认为,他们在整个职业生涯中每天都在从事的工作,被管理人员吹捧为成了鲜事;当这些统计学家回到学院时,这些工作已经被认为是普遍的。

关于密歇根大学 “数据科学计划” 的以下几点说明对这类统计学家来说非常重要:

  • “数据科学计划” 的发起者,密歇根大学,已经拥有一个庞大且备受尊敬的统计系。
  • 该计划的领导者是电气工程与计算机科学系(AL Hero)和医学院(Brian Athey)的教师。
  • 首届研讨会有 20 多名发言者,其中只有一名来自统计系,Susan Murphy。

不可避免地,许多学术统计学家会认为统计在这里被边缘化了;这种观点中的潜台词是,统计是数据科学的一部分,但不是很大的一部分。与此同时,对 “数据科学计划” 实际操作的许多具体描述,在统计学家看来似乎都是些最基本的统计学知识。统计显然与这样的计划甚至谈不上太大关系!

在网上搜索有关 “数据科学” 这一新兴术语的更多信息时,我们会看到数据科学协会 “专业行为准则” 中的以下定义

“数据科学家” 是指使用科学方法从原始数据中发掘并创造意义的专业人员。

对统计学家来说,这听起来不就是应用统计学家的工作嘛:使用统计方法从数据中做出推断。还有:

“统计学” 是指大量收集和分析数据的实践或科学。

对统计学家来说,统计学的这个定义似乎已经包含了数据科学家定义可能包含的任何内容,但是统计学家的定义似乎又是有限的,因为许多统计工作都是从非常小的样本中进行推断——几百年来一直如此。但事实上,统计学家处理的是数据,无论大小。

统计行业正处在一个令人困惑的时刻:几个世纪以来统计一直关注的领域现在成为了焦点,但这些领域经由 “暴发户” 和“路人甲”开发包装后(尽管实际上不是由他们发明的),却变得光鲜亮丽焕然一新。各种专业统计组织正在做出反应:

  • 我们不是数据科学吗? 2013 年 7 月,美国国家统计局(AmStat)新闻中美国统计学会(ASA)主席 Marie Davidian 的专栏
  • 一场盛大的辩论:数据科学只是统计学的 “换壳” 吗? Martin Goodson,2015 年 5 月 19 日英国皇家统计学会(Royal Statistical Society)统计与数据科学关系会议的联合组织者,他在互联网上发布了宣传该活动的帖子。
  • 让我们拥有数据科学。 国际数理统计学会(IMS)主席郁彬的发言,转载于 2014 年 10 月的 IMS bulletin

你将很容易发现,不少博主也对这种新形势表达了困惑:

  • 我们已经发展了几个世纪的统计学,为什么还需要数据科学? Irving Wladawsky-Berger,华尔街日报,首席信息官报告,2014 年 5 月 2 日
  • 数据科学就是统计学。 当物理学家做数学的时候,他们不会说他们在做数字科学。他们就是在做数学。如果你在分析数据,你就是在做统计。你可以称之为数据科学、信息学、分析学或其他什么,但它仍然是统计…… 你可能不喜欢一些统计学家做的事情;你可能觉得他们不认同你的价值观;他们可能会让你难堪。但这不应该导致我们放弃 “统计” 一词,Karl Broman,威斯康星大学

另一方面,我们可以发现另外一种声音,宣称统计学无关紧要:

没有统计学的数据科学是可能的,甚至是理想的。 Vincent Granville,Data Science Central Blog

统计学是数据科学中最不重要的部分。 Andrew Gelman, 哥伦比亚大学

显然,有许多关于数据科学及其与统计的关系的不同观点。在我与其他人的讨论中,我遇到了某些反复出现的 “模因”(memes)。我现在依次回应其中主要的几点。

2.1 “大数据” 模因

回到本文开头密歇根大学发布数据科学计划的新闻稿,密歇根大学校长 Mark Schlisel 反复使用 “大数据” 一词,宣扬其对所有领域的重要性,并强调数据科学处理此类数据的必要性。这种观点几乎无处不在。

但我们可以立即说明为什么 “大数据” 不是一个有意义的区分统计学和数据科学的标准。

  • 历史。“统计”一词是在现代人口普查数据编制工作之时创造的,即一个国家(例如法国或美国)所有居民的综合数据。人口普查数据大致相当于当今大数据的规模;但它们已经存在了 200 多年!统计学家 Hollerith 发明了大数据领域的第一个重大进步:穿孔卡片阅读器,可以有效地汇编详尽的美国人口普查数据。这一进步导致了 IBM 公司的成立,该公司最终成为一股将计算和数据推向更大规模的力量。长期以来,统计学家处理大型数据集并不觉得多么棘手,而且几十年来一直在召开会议聚集 “大型数据集” 的专家进行讨论,即使 “大” 的定义不断扩大。
  • 科学。几十年来,数理统计研究人员一直在追求对大数据集的科学理解。他们关注的是当数据库中有大量的个体、大量的测量值或两者都有时会发生什么。认为他们并没有疯狂并痴迷于思考这些事情,是完全错误的。统计作为一个领域的核心发现之一是抽样和充分性,它使得我们能够极其有效地处理非常大的数据集。而这些想法的发现正是因为统计学家关心大数据集。

数据科学 =“大数据” 框架并没有触及各个领域的任何本质。

2.2 “技能” 模因

在我亲眼目睹的对话中,计算机科学家似乎已经确定了以下谈话要点(例如,美国国家科学基金会主办的数据科学理论基础研讨会上,2016 年 4 月):

(a) 数据科学关注的是传统计算资源无法容纳的大数据。

(b) 数据科学受训人员具备处理此类大数据集所需的技能。

这一论点又加上了 “大数据技能模因”,进一步强调“大数据” 模因。(我们在前文已经驳斥了这一点!)

这些技能是什么?在 2010 年代早期,许多人会说它指的是精通 Hadoop。Hadoop 是 Map/Reduce 的一个变体,用于处理分布在计算机集群中的数据集。参考此书(Hadoop: The Definitive Guide. Storage and Analysis at Internet Scale, 4th Edition by Tom White)。在那里,我们详细学习了如何将单个抽象数据集划分到大量处理器之中。然后我们学习了如何计算这个庞大数据集的某一列的最大值。这包括计算位于每个处理器中的子数据集上的最大值,然后组合每个处理器的最大值以获得总体最大值。虽然本例中计算的函数非常简单,但要大规模实现该示例,确实需要一些技巧。

在这种技能的喧嚣中,人们似乎会忘记一个令人尴尬的事实:人们从前就已经可以完成这样的计算任务了,甚至比在这种花哨的设定中更容易完成更宏大的任务!一个数据集可以放在一个处理器上,数组 “X” 的全局最大值可以用 Matlab 或 R 中的六个字符代码片段 “X” 来计算。更雄心勃勃的任务,如凸函数的大规模优化,都很容易设置使用。过去炒作没那么流行时,这些今天被吹捧的技能是没有必要的。相反,科学家会利用优雅的数学和以数学为模型的强大定量编程环境,发展出解决他们真正感兴趣的问题的技能。这些环境是 50 多年连续改进的结果,越来越接近于能够立即将清晰的抽象思维转化为计算结果的理想。

吸引如此多媒体关注的新技能并不是更好地解决真实问题的数据推断;而是处理大规模集群计算的组织工件的应对技能。这些新技能可以应对多处理器 / 网络问题对算法提出的新的严重限制。而在这个高度受限的环境中,与单处理器模型相比,易于构造的算法的范围急剧缩小,因此人们不可避免地倾向于采用以往被认为是初步的或甚至不适当的处理方法。这样的应对方式消耗了我们的时间和精力,改变了我们对什么是合适的判断,并阻碍了我们采用原本热切追求的数据分析策略。

尽管如此,声势不断壮大的啦啦队员们仍在竭尽全力地大喊:使用更大的数据值得更多关注。

2.3 “工作岗位” 模因

过去十年,谷歌和亚马逊等全球知名信息技术企业取得了令人瞩目的成功,这些成功目前得到了投资者和首席执行官的认可,而人们对大数据的热情也推动了这些成功。在过去的五年里,相关岗位招聘 “激增”,同时具备数据库和统计技能的工程师炙手可热。在《大数据文化》(The Culture of Big Data, Barlow, 2013)中,Mike Barlow 对这一现象进行了总结:

根据 Gartner 的数据,到 2014 年,会涌现 440 万个大数据岗位,但其中只有三分之一需求可以得到满足。Gartner 的预测让人联想到大数据人才的 “淘金热”,大批核心量化分析师将他们的高级学位转化为收入丰厚的就业协议。

Barlow 认为,在这种环境下,任何高级数理方向的学位都已足够胜任,但今天的数据科学计划本身意味着,传统的统计学位不足以在这一领域找到好工作——因为计算和数据库技能必须是数据科学领域的必要能力。(当然,获得统计学位需要频繁使用计算机,但这一过程中却往往忽略专业软件开发和数据库理论方面的培训。)

我们并不真的清楚这一点。小册子《分析师分析:数据科学家及其工作的回顾性调查》(Analyzing the Analyzers: An Introspective Survey of Data Scientists and Their Work, Harris、Murphy 和 Vaisman 2013)指出

尽管人们对 “数据科学”、“大数据” 和“分析”感到兴奋,但这些术语的模糊性导致了数据科学家和寻求帮助的人之间的沟通不畅。

Yanir Serousi 在博客中提出,“没有工作经验的人很难获得真正的数据科学职位。”(https://yanirseroussi.com/2014/10/23/what-is-data-science/)

一个成功的数据科学家需要能够通过探索数据并应用严格的统计分析来与数据融为一体…… 但是,优秀的数据科学家也得了解部署生产系统需要什么,并准备好 “筚路蓝缕” 编写代码来清洗数据或执行核心系统功能…… 但掌握这些技能需要时间。

Barlow 认为,未来的数据科学家在获得硕士学位后可能会面临多年的进阶技能学习,然后才能为雇主创造价值。在现有的大数据组织中,生产数据处理的基础设施已经一成不变。而数据科学硕士课程中所教授的数据库、软件和管理技能不太可能与某个特定雇主使用的完全一致。招聘单位实际上设置了诸多限制,而对于新员工来说,能够为单位做出的贡献就是学习如何应对这些限制,同时仍然有所成就。

数据科学学位项目实际上并不知道如何满足毕业生的巨大需求。正如我们下面展示的,数据科学学位相对于统计学学位,最大区别是提供了额外的信息技术培训。然而,这些毕业生在学位项目中所学到的特定信息技术技能,与用人单位的实际需求却常常并不匹配。相比之下,数据分析和统计却是更加广泛适用,在任何单位中都能发光发热。

2.4 真实情况是什么?

我们已经看到,今天大众媒体关于数据科学的理解甚至经不起基本的推敲。这是完全可以理解的:媒体写手和管理者们都被吓着了。每个人都认为我们即将面临着人类社会的一个沟通断层。

如果你阅读一本 2010 年的旅游指南,它会告诉你印度村庄的生活在几千年间没有任何改变。但如果你在 2015 年走进这些村庄,你会看到那里的许多人现在有手机,有些人还有智能手机。这当然是最前沿的重大变化。很快,80 亿人将连接到网络,并成为数据源,不断生产关于他们活动和偏好的大量数据。

迈向广泛连接的转变是非常惊人的;事实上,它将产生海量的商业数据。在未来几十年里,利用这些数据肯定会是商业领域的重头戏。

2.5 更好的框架

然而,一门科学的诞生不仅仅是因为大量数据将很快填满电信服务器,而且因为一些管理人员认为他们能够感知由此产生的招聘浪潮和政府资助趋势。

幸运的是,我们有充分的理由建立一个叫做 “数据科学” 的实体,这将是一门真正的科学:应对持久性的基本问题,并使用科学严谨的技术来解决这些问题。

至少 50 年来,有洞察力的统计学家一直在为构建这一潜在实体奠定基础,将其作为传统学术统计的扩展。这一潜在的数据科学概念与今天被吹捧的数据科学并不相同,尽管两者有很大的重叠。这一潜在的概念是对一系列不同的紧迫趋势的回应,即才智而非商业。面对才智趋势需要许多与商业趋势相同的技能,并且似乎同样有可能满足未来的学生培训需求和未来的研究资助趋势。

潜在的概念将数据科学视为从数据中学习的科学,包括所有以上提到的技能。它与未来 50 年中出现的最重要的科学发展相匹配。随着科学出版物自身成为我们可以分析和研究的数据,通过科学家一直在进行的数据分析的科学研究,提高科学的准确性和有效性的机会多得惊人。(在下文中,我们将使用缩短的公式,例如 “科学本身就是一个数据体”。)

对以上事实的了解,有助于帮助各位院校领导重新调动当今数据科学运动背后的能量和热情,致力于将一门新的科学学科打造为一个规范化的、持久卓越的项目。

在这篇文章中,我整理了多年来发表的关于这一新的潜在数据科学领域的观点,并提出了一个理解其基本问题和过程的框架。这个框架对教授该学科和进行关于数据科学如何完成和可能改进的科学研究都有影响。

3 数据分析之未来, 1962

这篇文章是作为 John Tukey 百年纪念演讲的备忘录而准备的。50 多年前,John 预言像今天这样的数据科学时刻即将到来。在《数据分析之未来》(The Future of Data Analysis, Tukey 1962)中,John 用以下段落深深震撼了他的读者(学术统计学家)
21

长期以来,我一直认为自己是一名统计学家,对从特定到一般的推论感兴趣。但随着我观察数理统计的发展,我有理由好奇并怀疑…… 总而言之,我开始觉得我的核心兴趣是数据分析,我认为其中包括:分析数据的过程、解释这些过程结果的技术、规划数据收集的方式以使其分析更容易、更精确或更准确,以及适用于分析数据的(数理)统计的所有机制和结果。

John 的文章于 1962 年发表在《数理统计年刊》(The Annals of Mathematical Statistics)上,这是当时数理统计研究的核心期刊。当时该杂志上出现的其他文章在数学上是精确的,会给出定义、定理和证明。John 的文章反而是一种公开的坦白,解释了为什么他认为这样的研究过于狭隘,可能是无用或有害的,统计学的研究范围需要大幅扩大和重新定向。

Peter Huber 在稳健估计方面的科学突破很快就出现在同一份杂志上,他最近对 FoDA 发表了评论:

半个世纪前,Tukey 在一篇震古烁今的论文中重新定义了我们的主题……[论文]引入了术语 “数据分析” 一词作为应用统计学家工作的名称,该术语与正式的统计推断区分开了。但实际上,正如 Tukey 所承认的,他“将该术语扩展到语言学之外”,以至于它包含了所有的统计学。——Peter Huber(2010)

因此,Tukey 的愿景将统计嵌入了一个更大的实体中。Tukey 的核心主张是,这个他称之为 “数据分析” 的新实体是一门新科学,而不是数学的一个分支:

关于什么是一门科学,有各种各样的观点,但大多数人认为三个要素是必不可少的,即:

(A1)才智内容(intellectual content),

(A2)以可理解的形式组织,

(A3)依赖经验测试作为有效性的最终标准。

通过这些测试,数学不是一门科学,因为它的最终有效性标准是一种公认的逻辑一致性和可证明性。在我看来,数据分析通过了所有三项测试,我将其视为一门科学,一门由普遍存在的问题而非具体学科定义的科学。因此,数据分析和遵循它的统计部分必须具有科学的特征,而不是数学的特征……

这些要点应该认真对待。

Tukey 确定了新科学的四个驱动力:

今天,数据分析受到四大因素影响:

统计学的形式理论

计算机和显示设备的加速发展

在许多领域,越来越大的数据量所带来的挑战

越来越多的学科开始强调量化

John 在 1962 年列出的清单出人意料地现代,涵盖了今天在宣传当今数据科学计划的新闻稿中引用的所有因素。当时令人震惊的是第 1 项,这意味着统计理论只是新科学的一个(微小的!)部分。

这门新科学与现有科学相比较,进一步限制了统计学在其中的作用:

…… 数据分析是一个非常困难的领域,它必须适应人们使用数据的需求。如果我们说生物学比物理学更复杂,行为科学又比这两者都更复杂,那么数据分析的一般问题可能会比这三者都更复杂。无论是现在还是不久的将来,都很难要求一个高度形式化的结构为数据分析提供密切有效的指导。

数据分析可以从传统统计中获得很多,但前提是这种借鉴足够灵活。

因此,数据分析不仅是一个科学领域,而且与任何主要科学领域一样复杂!理论统计只能在其发展过程中发挥部分作用。

Mosteller 和 Tukey (1968) 的标题重申了这一点:“数据分析,包括统计学”。

[21] 有人质疑为什么该杂志能够允许发表这篇文章!一定程度上可能是因为 John 是普林斯顿的数学教授,这给了他足够的权威!著名天文学家 / 宇宙学家 Martin Rees 爵士曾经打趣道:“上帝发明了空间,这样普林斯顿才不会什么都发生。” 加州大学伯克利分校的 JL Hodges Jr. 是《数理统计年鉴》的新任编辑,他同意发表了如此有远见但极具争议的文章,值得称赞。

4 “数据分析之未来” 之后的 50 年

虽然 Tukey 呼吁建立一个更广泛的统计领域,但即使是在个人的科学著作中,也不可能一蹴而就。

P. J. Huber 写道:“Tukey 的论文的影响力并没有立即得到承认…… 我花了几年时间才真正理解了它的重要性……”(Huber,2010 年)。通过对 Peter 的近距离观察,我可以说,在 FoDA 之后 15 年,他依然坚持自己的观点。与此同时,Huber 案例中这种效应的充分证据甚至出现得更晚——参见他 2010 年的著作《数据分析:过去 50 年可以学到什么》,该书总结了 Peter 自 20 世纪 80 年代以来的著作,出现在 FoDA 之后 48 年!

4.1 劝诫

虽然 Huber 显然选择了探索 Tukey 愿景中的前景,但学术统计总体上并没有
22
。John Tukey 的贝尔实验室同事不在学术统计系,他们更容易接受 John 的视野,即一个比学术统计所能提供的更大的领域。

John Chambers 是贝尔实验室统计和数据分析 S 语言的联合开发者,他于 1993 年发表了这篇文章(Chambers 1993),标题是 “更大或更小的统计,未来研究的选择”。他的摘要毫不留情:

统计专业在未来的研究中面临着一种选择,一种是继续专注传统主题——主要基于数理统计支持的数据分析,另一种是更广泛的视野——基于从数据中学习的包容性概念。

后一条路带来了严峻的挑战,但同时也有令人兴奋的机遇。前者的风险是统计学变得越来越边缘化……

一位统计学家呼吁采取行动,他觉得 “火车要离开车站了”。就像 Tukey 的文章一样,他提出,我们可以在比我们今天所做的统计研究更大的领域进行研究;这类研究将侧重于新型数据和新型展示方法所提供的机会。Chambers 明确表示,扩大的领域甚至比数据分析还要大。具体来说,它比 Tukey 1962 年的愿景更大。

吴建福就任密歇根大学 Carver 统计学教授后,发表了题为《统计 = 数据科学?》的就职演讲,他在演讲中主张将统计学更名为数据科学,统计学家更名为数据科学家。展望现代数据科学硕士课程,他甚至提到了新硕士学位的想法,其中大约一半的课程在统计学系之外。他将统计工作描述为数据采集、数据建模分析以及决策三部曲。尽管我们能找到他展示的幻灯片,但他并未出版正式的书面文章。(https://www2.isye.gatech.edu/~jeffwu/presentations/datascience.pdf)

William S.Cleveland 在贝尔实验室期间开发了许多有价值的统计方法和数据展示工具,并担任了 Tukey 作品集的联合编辑。他 2001 年发表了题为《数据科学:扩大统计技术领域的行动计划》的文章(Cleveland,2001, Data Science: An Action Plan for Expanding the Technical Areas of the field of Statistics ),为学术统计提出了调整研究领域的计划。该文摘要如下:

扩大统计技术领域的行动计划更关注数据分析。该计划部署了大学部门六个技术领域的工作,并主张为每个领域的研究和每个领域的课程专门分配资源。技术工作的价值取决于它对数据分析师的直接或间接收益。该计划也适用于政府研究实验室和企业研究机构。

在文章的引言中,Cleveland 写道:

…… 数据科学 [的结果] 应该根据它们使分析师能够从数据中学习的程度来评判…… 数据分析师使用的工具提供直接收益,作为开发工具基础的理论则提供间接收益。

Cleveland 提出了六个活动重点,甚至建议了精力分配。

(*) 跨学科学习 (25%)
(*) 数据模型和方法 (20%)
(*) 数据计算 (15%)
(*) 教学法 (15%)
(*) 工具评估 (5%)
(*) 理论 (20%)
在 Cleveland 出版时,我熟悉的几个学术统计系会将其 100% 的精力投入 Cleveland 提及的理论(20%)部分。Cleveland 的文章于 2014 年重新发表。我想不出哪一个学术部如今能将 15% 的精力投入到教学法上,或者 15% 的精力用于数据计算,但我能想到几个学术统计系继续将他们的所有活动纳入最后一个类别,即理论。

简言之,John Tukey 和他在贝尔实验室的一些同事,以及 Peter Huber 和吴建福等学者,多年来在反复劝告学术统计学家要改变道路,对他们的领域进行更广泛的定义。但在 2000 年之前,这种劝告几乎没有明显的效果。

[22] 如果需要证据,读者可以参考 1970-2000 年学术统计系的课程设置。在我的记忆中,那些年,课程中采纳 Tukey 建议的方向的比例很小。还有一点点关于绘制和查看数据的内容。

[24] 这呼应了 John Tukey 在 FoDA 中的发言,我相信 Bill Cleveland 会很自豪地承认这一点。

[25] 地球物理学家对 “关心地球” 的数学地球物理学家和 “关心数学” 的数学地球物理学家进行了区分。可能生物学家在定量生物学中也做了同样的区分。在这里,Cleveland 引入了 “试金石” 区分理论统计学家:他们是否“关心数据分析”?

4.2 实践落地

最早,这样的劝诫所面临的一个障碍是,许多劝诫者自己都说不清 “数据分析” 是怎么回事。“数据分析”的活动更加具体和可见,最终是由代码而不是文字推动的。

在过去的 50 年中,许多统计学家和数据分析师参与了数据分析计算环境的开发。这些环境包括早期的统计软件包 BMDP、SPSS、SAS 和 Minitab,它们都起源于 20 世纪 60 年代末的大型机计算。而一些更新的软件,如 S、ISP、STATA 和 R,起源于小型计算机 / 个人计算机时代。这是许多才华横溢的前辈所做的巨大努力,虽然其中部分可能并未得到应有的赞誉
26

要量化这些软件包的重要性,请尝试使用 Google 的 N-grams 查看器 (https://books.google.com/ngrams/) 绘制 1970 年至 2000 年英语书籍中 SPSS、SAS、Minitab 的单词频率;为了进行比较,还要绘制双字组 “数据分析” 和“统计分析”的频率。事实证明,在这一时期,SAS 和 SPSS 在英语中都比 “数据分析” 或“统计分析”更为常见;事实上,是其两倍。

John Chambers 和贝尔实验室的同事 Rick Becker 从 20 世纪 70 年代中期开始开发了定量计算环境 “S”;它提供了一种描述计算的语言,以及许多基本的统计和可视化工具。在 20 世纪 90 年代,Gentleman 和 Ihaka 创建了一个类似工作的 R 系统,作为一个开源项目,被迅速传播开来。如今,R 是学术统计中使用的主要量化编程环境,用户数量惊人。

量化编程环境运行 “脚本”,精确地编码了计算的步骤,比传统计算机语言(如 C++)层级更高、更抽象。这些脚本现在通常被称为工作流。当给定的量化编程环境(QPE,quantitative programming environment)在某些研究社区中占主导地位时,就像学术统计中的 R(或信号处理中的 Matlab)一样,工作流可以在社区中广泛共享并重新执行,无论是在原始数据上(如果也共享的话)还是在新数据上。这彻底改变了游戏规则。以前有些模糊不清的东西——比如一篇科学文章中数据分析的论文描述——变成了具体和有用的,因为人们可以立即下载和执行代码。此外,还可以容易地调整脚本以反映数据的细微差别,例如,将原始脚本中的标准协方差矩阵估计器改变为鲁棒的协方差矩阵估计器。可以记录对原始脚本进行更改所带来的性能改进。现在,通过性能度量和脚本调整,用科学的方法来改进数据分析变得更加有意义。Tukey 声称数据分析研究可以成为一门科学,这一说法现在变得不言自明。人们可能对 Chambers 和 Cleveland 的行动呼吁各执一词;但到 2001 年,每个人都会同意 Cleveland 的观点,认为可能会有“数据科学” 这样的领域。

[26] 可以通过列举几个与普林斯顿大学 Tukey 百年纪念活动严格相关的例子来说明发展活动的强度。我在普林斯顿大学本科时使用了三个 “统计包”。P-STAT 是一个类似于 SPSS 的主机包,我在普林斯顿的 IBM 360/91 主机上使用过;ISP 是一个 UNIX 小型计算机包,我在普林斯顿统计局担任联合开发人员;我的老师 Don McNeil 为自己的一本关于探索性数据分析的书开发了软件;在他搬到麦格理大学后,这最终成为了 SPIDA。

5 Breiman 的《两种文化》,2001 年

Leo Breiman 是加州大学伯克利分校的统计学家,在担任环境保护局(Environmental Protection Agency)等一系列组织的统计顾问多年后重新进入学术界。他在《统计科学》(Breiman 2001)上发表的文章给统计讨论带来了重要的新思路。在名为 “统计建模:两种文化” 的文章中,Breiman 描述了从数据中提取价值的两种文化观。

统计从数据开始。假设数据是由一个黑箱生成的,其中输入变量 x(自变量)在一侧,而响应变量 y 在另一侧。在黑箱内,大自然将预测变量与响应变量进行关联……

分析数据有两个目标:

预测。预测未来自变量输入后,响应变量的变化;

推断。推断响应变量如何与输入变量相关联。

(注:我在这里稍微改变了 Breiman 的话;原文用 “信息”(information)代替 [推断](inference),用 “提取一些关于”(extract some information about)代替 [推断]([infer])。

Breiman 认为,根据数据使用者更关注哪一个目标,可以大体分为两个文化。

“生成型建模” 文化试图开发适合数据的随机模型,然后根据这些模型的结构推断数据生成机制。他们的观点隐含着这样一个概念,即有一个真正的模型生成数据,并且通常是分析数据的真正 “最佳” 方法。Breiman 认为这种文化涵盖了 98% 的学术统计学家。

“预测型建模”文化(Breiman 使用 “算法” 而不是“预测”)将预测放在首位,据 Breiman 估计,这一文化包括 2% 的学术统计人员——包括 Breiman ——许多计算机科学家,以及很多知名的工业界统计学家。预测型建模实际上对生成数据的潜在机制漠不关心,会尝试各式各样的预测算法,更倾向于讨论不同算法在不同数据集上做出的预测的准确性。Breiman 认为,通常隶属于计算机科学系的相对较新的机器学习学科,是预测型建模文化的中心。

Breiman 在摘要中提出:

统计界一直致力于尽可能完全使用生成模型。这种理念催生了无关痛痒的理论、似是而非的结论,并使统计学家无法处理当前大量有趣的问题。与之相反的是,预测型建模无论在理论上还是在实践中,都在统计学以外的领域得到了迅速发展。它既可用于大型复杂数据集,也可对较小数据集进行更为准确和信息丰富的建模。如果我们认为目标是使用数据来解决问题,那么我们需要摆脱对生成模型的排他性依赖……

再一次地,统计学科被要求扩大其涵盖范围。

在对 Breiman 文章的讨论中,牛津大学的著名统计学家 David Cox 爵士和斯坦福大学的 Bradley Efron 曾以多种方式反对 Breiman 所强调的观点。

Cox 表示,在他看来,“预测成功…… 不是模型选择的主要基准”,“不考虑更广泛目标的模型选择的方法是不可信的……”。

Efron 表示,“预测当然是一个有趣的话题,但 Breiman 的文章夸大了它的作用,也低估了我们对它的兴趣。”

在同一次讨论中,信用评分公司 Fair Isaac 的统计学家 Bruce Hoadley 对 Breiman 表达了强烈的支持:

Breiman 教授的论文是统计学家应该阅读的重要论文。他和《统计科学》杂志都应该受到赞扬…… 他的结论与统计学在商业中的应用是一致的。

Fair Isaac 的核心业务是实时预测每天数十亿的信用卡交易是否会得到偿还。Fair Isaac 不仅创建了预测模型,而且必须使用它们来支撑其核心业务,并且必须向银行、信用卡公司和监管机构证明其准确性。Breiman 的预测理念与他们的业务自然息息相关。

6 预测文化的秘诀

Breiman 劝统计学家加深对预测型建模文化的理解是正确的,但他的文章没有明确揭示这种文化的 “秘诀”。

6.1 共同任务框架

在我看来,一个未被认可,但是能推动预测型建模成功的关键方法是计算语言学家 Mark Liberman (2010) 所称的——共同任务框架(CTF,The Common Task Framework)。CTF 的一个实例包含以下成分:

(A) 一个可公开获得的训练集,其中包括每个观测的(可能是许多)特征测量列表,以及该观测的类别标签。

(B) 一组参赛者,他们的共同任务是从训练数据中推断出一个分类预测规则。

(C) 一个裁判,参赛者可向该裁判员提交其预测规则。裁判对测试数据集执行预测,测试数据集的正确结果参赛者不可见。裁判员客观、自动地报告提交规则所达到的分数(预测准确性)。

所有参赛者都有一个共同的任务,那就是训练一个预测规则,取得一个高分;这也是 “共同任务框架” 名字的由来。

最近一个著名的例子是 Netflix 挑战赛,其中的共同任务是预测 Netflix 用户的电影选择偏好。获胜的团队(包括 AT&T 统计学家 Bob Bell)赢得了 100 万美元。数据集使用了 Netflix 的客户历史数据。自然,还有很多其他相似的例子,而且往往会伴随着更大的回报。

6.2 共同任务框架的经验

共同任务框架(CTF)范式的起源与我们的故事有着有趣的联系。在 Mark Liberman 的讲述中,这要从贝尔实验室 Tukey 的同事 J.R.Pierce 说起。Pierce 发明了 “晶体管” 一词,指导了第一颗通信卫星的开发,并在 20 世纪 60 年代初 / 中期与 Tukey 一起担任总统科学咨询委员会的成员。在 Tukey 评估杀虫剂过度使用导致的新问题的同时,Pierce 被要求评估已经在机器翻译研究方面的大量投资。正如 Tukey 不喜欢他在 20 世纪 60 年代所看到的统计学研究一样,Pierce 也不喜欢他所看到的 60 年代机器翻译研究。

现在让我们跟随 Mark Liberman 的脚步。Pierce 认为这个领域充满了 “魅力和欺骗”,他对整个美国机器翻译研究工作的质疑,使得后者几十年间几乎毫无进展。(https://www.simonsfoundation.org/event/reproducible-research-and-the-common-task-method/)

作为魅力和欺骗的例子,Pierce 提到了翻译的理论方法,例如,乔姆斯基所谓的语言理论;尽管当时许多语言研究人员显然对这些理论所带来的魅力感到敬畏,但 Pierce 认为这些研究人员被(潜在的)理论的魅力所愚弄,而并未关注翻译模型的实际表现。

几十年后,机器翻译研究终于从 Pierce 的困境中恢复过来,但这主要是因为它找到了一种避免受 Pierce 魅力和欺骗指控的方法。IBM 语音和自然语言处理研究团队,包括真正的天才 John Cocke,以及数据科学家 avant la lettre Lalit Bahl、Peter Brown、Stephen、Vincent Della Pietra 和 Robert Mercer,基于 CTF 的早期应用,开始在机器翻译方面取得明确进展。一个关键的资源是数据:他们获得了一份所谓的 “加拿大汉萨德”(Canadian Hansards)的数字副本,这是一份翻译成英语和法语的政府文件集。到 20 世纪 80 年代末,美国国防高级研究计划局(DARPA)被说服采用 CTF 作为机器翻译研究的新范式。美国国家标准与技术研究院(NIST)签订了合同,负责生成隔离数据并进行评价,DARPA 要求研究人员团队制定在 CTF 下正确分类的规则。

目前,DARPA 已经成功地将 CTF 的变体应用于许多问题:机器翻译、语音识别、指纹识别、信息检索、OCR、自动目标识别等等。

Liberman 总结了共同任务框架(CTF)的一般经验如下:

根据任务和数据质量,错误率每年以固定百分比下降至渐近线。

进步通常来自许多小的改进;一次 1% 的进步或许就值得开香槟庆祝了。

共享数据起着至关重要的作用,并以意想不到的方式被重用。

谷歌翻译、智能手机触摸识别、智能手机语音识别等许多自动化过程的最终成功都源自 CTF 研究范式,或者更具体地说,源自它在特定领域运行了几十年后的累积效应。对于我们的故事来说,最重要的是:机器学习取得成功的领域本质上是 CTF 被系统应用的领域。

6.3 秘诀

毫不夸张地说,预测型建模文化与共同任务框架(CTF)的结合是机器学习的 “秘诀”。

最小化预测误差与 CTF 的协同作用值得注意。这一组合直接导致了对经验绩效的全面优化,正如 Mark Liberman 所指出的那样,这使得大量研究人员能够在任何给定的共同任务挑战中进行竞争,并允许对挑战获胜者进行高效、不带情感的评判。它还可以立即引导到现实应用程序中。在赢得比赛的过程中,预测规则必须经过测试,因此基本上可以立即部署。

(然而,在 Netflix 挑战赛中,获胜算法从未被实施。 https://www.techdirt.com/2012/04/13/why-netflix-never-implemented-algorithm-that-won-netflix-1-million-challenge/)

许多 “局外人” 不知道 CTF 的典范性质及其在许多机器学习成功中的核心作用。这些局外人可能听说过 Netflix 的挑战,但没有意识到 CTF 在挑战中的作用。他们可能会注意到,“深度学习”已经成为高科技媒体的热门话题,但他们并不知道,这是因为深度学习倡导者在多个符合 CTF 的比赛中取得了成功。

局外人中显然有许多主流的学术统计学家,他们似乎无法理解 CTF 在诸多技术领域均有所建树的原因。我不记得曾在专业统计会议或大型研究型大学的学术研讨会上看到 CTF 出现。

作者认为,CTF 是来自机器学习和数据科学的简单概念,但在当今的统计训练中最缺乏关注。

6.4 所需技能

共同任务框架(CTF)对一个领域的工作人员提出了许多要求:

工作人员必须提供可以通过 CTF 评分程序进行评估的预测模型。因此,他们必须遵守 CTF 开发人员提出的信息技术准则。

工作人员甚至可能需要为他们的问题实施定制的 CTF;因此,他们必须开发用于评估评分规则的信息技术学科,并且必须获得一个数据集,该数据集可以构成 CTF 核心的共享数据资源的基础。

简而言之,信息技术技能是预测型建模工作所需资格的核心。这些技能类似于湿实验室科学家进行实验所需的实验室技能,不需要数学。

共同任务框架(CTF)的应用真正腾飞的同时,开源软件运动开始了,随之而来的是主导特定研究社区的量化编程环境的到来。量化编程环境(QPE)的主导地位允许研究人员在他们的社区中方便地共享脚本,特别是实现基线预测模型或基线评分工作流程的脚本。因此,在 CTF 中工作所需的技能变得非常具体易学——我们可以下载并高效地调整一组脚本吗?

7 当下达成共识的数据科学的教学

看看最近建立数据科学项目的一些大学在今天的数据科学项目中教授的内容,可能会有所启发。让我们看看一下加州大学伯克利分校数据科学硕士学位的网站,它提供了大量颇有吸引力的信息:datascience.berkeley.edu.

查看网页 https://datascience.berkeley.edu/academics/curriculum/ 我们找到了五门基础课程

  • 数据与分析的研究设计与应用
  • 探索和分析数据
  • 存储和检索数据
  • 应用机器学习
  • 数据可视化和交流

只有 “存储和检索数据” 似乎显然不是传统统计系教的。仔细研究这些词可以发现,在所有主题中显得最不传统的 “应用机器学习” 在统计学家看来似乎是应该实际涵盖的主题,非常像统计系可能或应该提供的内容。然而,在课程标题中使用 “机器学习” 是一个提示,表明该方法可能会严重偏重于预测型建模而不是推断。

机器学习是计算机科学和统计学交叉的一个快速发展的领域,涉及在数据中寻找模式。它促成了技术的巨大进步,从个性化的产品推荐,到手机中的语音识别。本课程广泛介绍了机器学习的关键思想。重点将放在理解和实例,而不是理论结果上,尽管一些概率、统计和线性代数方面的知识将十分重要。

只看 “主题” 可能还无法带我们看到课程内容全貌,在 “工具” 下,我们找到了一系列核心信息技术。

用于线性代数、绘图、机器学习的 Python 库:numpy、matplotlib、sk learn,以及用于提交项目代码的 Github。

简而言之,课程参与者正在编写和提交代码。代码开发尚未被视为统计教学的绝对必要的工具。在许多统计课程中,代码将使用 R 或其他量化编程环境完成。对于数据分析来说,这些语言比较 “容易” 让学生上手,因为实际上整个现代数据分析的方法都已经通过这些环境实现了。然而,对于大规模的问题,R 的可扩展性有时被认为不如 Python。从这个意义上讲,使用 Python 进行工作的人可能会被认为比使用 R 进行同样工作的人更加刻苦、更加坚毅、更加专注。(译者注:实际上这是一些刻板印象,交叉使用多种语言是数据分析的常态,且解决问题的方法往往是独立于语言的。)

当我们浏览高级课程时,这种印象会继续加深。

实验和因果推断(Experiments and Causal Inference)

应用回归和时间序列分析(Applied regression and Time Series Analysis)

数据科学家的法律、政策和伦理考量(Legal, Policy, and Ethical Considerations for Data Scientists)

大规模机器学习(Machine Learning at Scale)

扩大!超大规模的数据(Scaling up! Really big data)

前两门课程看起来像是主流的统计课程,似乎任何研究型大学的统计系都可以教授。第三门不太常见,但同样与研究型大学已经存在了很长一段时间的科研伦理程重叠。(译者注:此处原文有误,已修正。)

最后两门课程解决了将统计方法扩展到真正大数据的挑战。这些课程通常不会在传统的统计系开设。加州大学伯克利分校数据科学项目的教师是谁?显然不是传统的学术统计学家。在 2015 年 9 月 11 日星期五 “关于 MIDS 教师” 网站的子页面,我可以找到大部分与非统计课程相关的教师的简短简历(例如 “扩大!超大规模的数据” 或“大规模机器学习”)。对于涵盖传统统计主题的大约 50% 的课程,能找到的简历较少,这些似乎表明它们指向了与传统统计学、社会学或信息科学的博士不同的职业道路。该项目本身由信息学院管理。

在 “数据分析之未来(FoDA)” 中,Tukey 认为统计学作为数学分支的教学阻碍了数据分析。他认为与数据分析的实际工作者建立学徒制是解决方案,因此真实数据才是解决方案:

所有的科学都有很多艺术成分。除了传授事实和公认的结构之外,所有的科学都必须教他们的学徒如何以特定科学的方式思考问题,以及当前的信仰和实践是什么。数据分析也必须如此。不可避免地,它的任务将比大多数科学更加艰巨。物理学家通常会长期集中地接触那些已经是该领域大师的人。即使是专业的统计学家,通往数据分析师的训练期间,能接触专业数据分析师的机会也会非常之少。今天之所以如此,有三个原因,但最多也只能慢慢改变:

(c1) 统计学往往被作为数学的一部分。

(c2) 在学习统计学本身的过程中,数据分析受到的关注也非常有限。

(c3) 统计学博士与专业人士亲密和积极接触的年数远远少于物理学或数学博士。

因此,数据分析以及基于它的统计学,面临着一个异常困难的问题,即如何传达它的一些核心要点。这个问题不可能通过间接讨论或工作得到解决,即使在其他的很多领域中是可能的。

伯克利数据科学硕士项目的特色是一个结业课程,它涉及大型数据集的数据分析项目。课程列表部分说明了课程中的内容。

期末项目将提供制定和实施持续、连贯和重要的工作过程的经验,从而产生带有真实世界数据的有形数据科学分析项目…… 结业课程将以小组 / 团队的形式完成(3-4 名学生),每个项目都将关注开放的、准备好的数据。

这个项目似乎提供了一些 “学徒” 机会,John Tukey 从他的大学化学学位工作中了解到了这些机会,并认为这些机会对数据分析很重要。

Tukey 坚持认为,数学严谨性在数据分析教学中的价值非常有限。这一观点在上面引述的 “数据分析之未来(FoDA)” 中已经很明显了。在 FoDA 的其他地方,Tukey 说:

教授数据分析并不容易,所投入的时间也总是远远不够。但是,有观点认为 “避免教条主义,加深实际理解只能通过数学学习,尤其是数学证明”,因此这样的观点实际上加深了数据分析学习的困难。“教条主义” 的问题并不是数据分析所特有的;专注于数学和证明的解决方案才是。

Tukey 认为数据分析就像其他科学,而不是数学,因为存在需要关联的知识,而不是需要证明的定理。他再次根据自己的化学背景,指出

今天的生物化学领域比数据分析领域包含了更详细的知识。整体教学问题更难。然而,教科书力求尽可能详细地讲述事实。

他还建议实验室为学生提供学习统计学的试验方法:

这些事实有点复杂,可能不太容易教授,但任何一个班级都可以通过自己的实验抽样来检查其中的任何一个。

有人因而认为,John Tukey 可能认为学生从统计学课程转换到同类的数据科学课程并不是坏事。

在《统计建模:两种文化》一文中,Leo Breiman 认为,教授随机模型构建和推断而拒绝预测型建模,会使得统计学无法处理它所涉及的最有趣的问题。他当时提到的问题是当今数据科学的热门应用之一。因此,Breiman 可能会欢迎打破推断和预测之间平衡的教学项目,也就是说,像加州大学伯克利分校数据科学硕士这样的项目。

尽管我心目中的英雄 Tukey、Chambers、Cleveland 和 Breiman 会认识到这些项目积极的一面,但很难说他们是否会认可它们的长期方向,或者是否有一个长期方向可以评论。考虑一下这个蹩脚的定义:

数据科学家(名词):比任何软件工程师更擅长统计,比任何统计学家更擅长软件工程的人。

这个定义实际上是有根据的。数据科学硕士课程是妥协的产物:从统计硕士课程中拿走一些材料,为大型数据库培训腾出空间;或者,同样地,从计算机数据库硕士课程中删掉一些内容,并加入一些统计学和机器学习。这样的妥协有助于管理人员快速设置学位课程,而无需对课程的长期方向以及教师的研究方向提供任何指导。我心中的英雄们会提供什么样的指导呢?

[35] 我不想暗示学院教师的组成与我有任何关系。我只是想证明,这是一个被非政府组织抓住的机会。学术统计史上的一个重要事件是 Hotelling 的文章《统计教学》(Hotelling, 1940),该文谴责了由非数学家教授统计学的行为,并推动了学术统计系的成立。但这些新的发展可能正在摧毁战后多年的统计教学专业化。

8 数据科学的范畴

John Chambers 和 Bill Cleveland 各自设想了一个比我们一直在讨论的当下数据科学硕士大得多的领域,但同时在才智上更有成效、更持久。

更大的视野让专业人士寻求从数据中提取信息——就像我们之前看到的数据科学的定义一样。更大的领域关心专业人士必须采取的每一步,从熟悉数据到基于数据交付结果,甚至延伸到专业人士对整个领域本身最佳实践证据的持续审视。

继 Chambers 之后,让我们将迄今为止提到的活动集合称为 “狭义数据科学”(LDS, lesser data science),将更大的潜在领域称为 “广义数据科学”(GDS, greater data science)。Chambers 和 Cleveland 各自将他们的主题分解为特定的部门、主题和活动子领域。我发现合并、重新标记和概括他们提出的两个部分很有帮助。本节介绍并讨论 GDS 的这一分类。

8.1 六个部分

广义数据科学(GDS)的活动分为六个部分:

  1. 数据收集、准备和探索
  2. 数据表示和转换
  3. 基于数据的计算
  4. 数据建模
  5. 数据可视化和展示
  6. 关于数据科学的科学

让我们详细了解一下每个部分。

GDS1:数据收集、准备和探索。

有人说,80% 的数据科学精力投入都是通过深入或融入杂乱的数据来学习其中的基本知识,从而为进一步开发数据做好准备。我们确定了三个子活动:

数据收集。这包括统计学家在一个多世纪以来实践的传统实验设计,也包括各种现代数据收集技术和数据资源。举例来说,Google nGrams 查看器可以量化 1500-2008 年的整个文献集,Google Trends 可以量化全部人口甚至细化到地方的网络搜索兴趣,人类每年拍摄 1 万亿张照片,其中许多照片发布在社交媒体上
36
;数十亿的文字内容被发布在社交媒体上
37
。我们拥有新的数据提取技术,如计算生物学中的下一代测序、GPS 定位和超市扫描仪数据。下一代技术可以包括网页抓取、Pubmed 抓取、图像处理,以及 Twitter、Facebook 和 Reddit munging
38

数据准备。许多数据集包含异常和错误
39
。任何数据驱动的项目都需要仔细识别和解决这些问题。响应范围从重新格式化和重新编码值本身,到更宏大的预处理,如分组、平滑和取子集。今天,人们经常谈论数据清理和数据合并。

数据探索。自从 John Tukey 发明了 “探索性数据分析”(EDA)一词以来,我们都同意,每个数据科学家都花了大量的时间和精力来探索数据,以检查其最基本的属性,并揭示意外的特征。这样的探索工作为每一项数据驱动的努力增添了至关重要的洞察力。

GDS2:数据展示和转换。

数据科学家在职业生涯中处理许多不同的数据源。这些数据源采用的格式千奇百怪,通常各有不同,数据科学家必须很容易地适应所有这些格式。当前的硬件和软件限制是多样性的一部分,因为访问和处理可能需要仔细部署分布资源。

数据科学家经常发现,他们工作中的一个核心步骤是实施适当的转换,将最初给定的数据重组为新的、更具启发性的形式。

数据科学家在两个特定领域培养技能:

现代数据库。今天的数据表示范围非常广,从简单的文本文件和电子表格到 SQL 和 noSQL 数据库、分布式数据库和实时数据流。数据科学家需要知道使用所有这些不同表示所涉及的结构、转换和算法。

数学表示。这些是有趣且有用的数学结构,用于表示特殊类型的数据,包括声学、图像、传感器和网络数据。例如,为了获得声学数据的特征,人们经常转换到倒谱或傅里叶变换;对于图像和传感器数据,小波变换或其他一些多尺度变换(例如深度学习中的金字塔型特征提取)。数据科学家需要利用这些工具进行开发,并对其部署做出成熟判断。

GDS3:基于数据的计算。

每个数据科学家都应该知道并使用多种编程语言进行数据分析和数据处理。这些编程语言可以包括 R 和 Python 等流行语言,也可以包括用于转换、操作文本以及管理复杂计算管道的特定语言。一个大项目同时涉及六种不同语言也并不奇怪。

除了编程语言的基本知识之外,数据科学家还需要了解有效使用这些语言的新习惯用法,并需要了解与计算效率相关的更深层次的问题。集群和云计算以及在这些集群上运行大量任务的能力已经成为现代计算环境中一个极其强大的组成部分。为了利用这一机会,数据科学家需要开发工作流(workflows),这些工作流将工作分为多个任务,依次运行或跨多台机器运行。

数据科学家还将搭建工作流,记录单个数据分析或研究项目的步骤。

最后,数据科学家需要开发一些软件包,这些软件包抽象了常用的工作流片段,并将其用于未来的项目。

GDS4:数据可视化和展示。

数据可视化可以通过 EDA 中的直方图、散点图、时间序列图等简单方式呈现,但在实践中,它远不止这些。数据科学家经常花费大量时间用更多的颜色或符号来修饰图像,以引入一个重要的新变量。他们还经常通过开发一个新的图形类型以加深他们对数据集的理解。数据科学家还创建了仪表板,用于监控访问流或广泛分布数据的数据处理管道。最后,他们开发了可视化工具,以展示建模结果或共同任务框架(CTF)挑战的结论。

GDS5:数据建模。

在实践中,每位数据科学家都使用来自 Leo Breiman 两种建模文化的工具和观点:

生成型建模,提出了一个可以生成数据的随机模型,并推导出推断潜在生成机制属性的方法。这大致上与传统的学术统计及其分支相吻合。

预测型建模,构建预测模型,可以在一些具体给定的数据集上作出很好的预测。这与现代机器学习及其产业分支大致吻合。

GDS6:关于数据科学的科学。

Tukey 提出,“数据分析科学”是存在的,而且应该被认为是所有科学中最复杂的科学之一。他提倡研究数据分析师 “在野外” 实际在做什么,并提醒我们,工具的真正有效性需要同时考虑部署概率以及部署后的有效结果概率。

当数据科学家识别常见的分析 / 处理工作流时,他们正在进行数据科学方面的科学研究,例如,使用关于其在某些学术或商业领域中出现频率的数据;当他们在人力时间、计算资源、分析有效性或其他性能度量方面衡量标准工作流的有效性时,当他们发现数据分析中出现的现象时,例如,数据分析工作流中出现的新模式,或公开发表的分析结果中存在的令人不安的 “人为因素”。

这里的范畴还包括使未来此类科学成为可能的基础工作——例如以标准数字格式对单个分析和结论进行编码留档,以备将来收获和荟萃分析(meta-analysis)。

随着数据分析和预测型建模成为一个分布越来越广泛的全球行业,“关于数据科学的科学” 的重要性将显著增加。

8.2 讨论

这六类活动,如果进行充分概括,涵盖的领域远远大于当前学术统计努力教授或研究的领域。事实上,“GDS5:数据建模” 这一单个类别主导了当今学术部门中数据科学的表现,无论是通过统计和数学部门下的传统统计教学和研究,还是通过计算机科学部门下的机器学习。

这一分析反映了我们之前一直试图证明的各种观点:

计算机科学家用来将 “数据科学” 与“统计学”区分开来的关键问题在这里得到明确,“GDS3:基于数据的计算”和 “GDS2:数据表示” 作为 “GDS5:数据建模” 的主要部分。

上述分类掩盖了机器学习和学术统计之间的紧张关系;其中大部分与数据科学家每天的工作无关。正如我上面所说,数据科学家应该同时使用生成和预测型建模。

关于分布式数据库、Map/Reduce 和 Hadoop 的喧嚣在上述分类中并不明显。这些工具与 “GDS2:数据表示” 和“GDS3:基于数据的计算”相关,但尽管它们现在被大量引用,但它们只是当今某些更大活动的推动者。这样的活动将永久存在,而 Hadoop 等推动者的角色将不可避免地被精简。

当前的数据科学硕士课程仅涵盖此处所示领域的一小部分。这类课程的毕业生无法充分接触探索数据、数据清理、数据整理、数据转换、关于数据科学的科学以及 GDS 中的其他主题。

本清单的其他特征将在下文中出现。

8.3 广义数据科学(GDS)教学

全面承认广义数据科学(GDS)的范畴需要涵盖其六个分支中的每一个。这需要教学的重大转变。

“GDS5:数据建模”是数据科学中易于形式化和教授的部分;我们已经长期在统计学课程中这样做了;在机器学习课程中已经做了十年或更长时间;这种模式在我们周围正在引入的数据科学硕士课程中继续存在,它消耗了大部分课程时间分配。然而,这种 “简单的东西” 只涵盖了有效利用数据所需努力的一小部分。

根据从业人员花费的时间来衡量,“GDS1:数据收集、准备和探索”比 “GDS5:数据建模” 更重要。但是很少有人努力将数据探索和清理正规化,这些主题在教学中仍然被忽视。只分析预先准备好的数据的学生没有机会学习这些基本技能。

教学如何解决这样的问题?我建议读者仔细研读这两本书。

(Tango, Lichtman, and Dolphin 2007)这本书分析了一套涵盖美国职业棒球大联盟比赛所有方面的数据集,包括近几十年来进行的每一场比赛和曾经出现在比赛中的每一个球员。这项令人惊讶的全面工作考虑了一系列关于不同棒球策略的量化表现的问题,仔细描述了如何使用这样的数据库来回答这些问题,通常通过统计双样本测试(或互联网营销术语中的 A/B 测试)。

使用 R 分析棒球数据(Marchi and Albert 2013)展示了如何使用互联网访问丰富的可用棒球数据,以及如何使用 R 深入分析这些数据。

如果一个学生能够做到使用第二本书中教授的工具和方法来回答第一本书中的一些有趣问题,在我看来,他就在 “GDS1:数据收集、准备和探索” 中获得了真实的专业技能。类似的项目也可以用在数据科学的 “新” 部分中。比如,在 “GDS3:基于数据的计算” 中,我们可以教学生上手来开发新的 R 包和新的数据分析工作流。

Ben Baumer 及其合著者回顾了 Horton、Baumer 和 Wickham(2015)以及 Baumer(2015)教授数据科学 / 统计学入门课程的经验,这些课程与该方法理念一致。

读者可能会担心广义数据科学(GDS)的范围太大,这要比我们常规的教学要大得多。Tukey 预料到了这样的反对意见,他指出生物化学教科书似乎比统计教科书涵盖了更多的材料;他认为,一旦该领域更加雄心勃勃地致力于教学,它就可以简单地 “加快步伐” 。

8.4 广义数据科学(GDS)研究

一旦我们记住了 GDS 的模板,我们就可以认识到今天有各种有趣且极具影响力的 “GDS 研究”。虽然很多这类研究还没有一个自然的 “家”,但 GDS 提供了一个框架来组织它并使其易于访问。我们举几个例子来激发读者的思考。

8.4.1 量化编程环境:R
“基于数据的计算” 这个总的话题乍一听似乎可以延伸到许多主流的学术计算机科学;这表明数据科学和计算机科学之间也许没有真正的区别。但相反,“基于数据的计算” 有一个独特的核心,它与学术计算机科学不同。问题的关键在于一项工作是否是以分析数据为中心。

我们之前谈到,R 系统通过创建一种标准语言彻底改变了数据分析的实践,不同的分析师都可以使用这种语言来交流和共享算法和工作流程。Becker 和 Chambers(S)以及后来的 Ihaka、Gentleman 和 R 核心团队的成员(R)将他们的工作设想为研究如何用统计学最好地组织计算。我也将其归类为研究,涉及类别 “GDS 3:基于数据的计算”。请注意这项工作本质上是多么雄心勃勃,多么有影响力。在最近回顾了许多关于数据科学计划的在线演示时,我惊讶地发现,即使是声称根本不做统计的数据科学讲师,对 R 的依赖程度也是如此之高。

8.4.2 数据整理:清洗数据
Hadley Wickham 是统计计算领域的知名贡献者,他开发了众多流行的软件包,包括 ggplot2、reshape2、plyr、tidyr、dplyr 等,这些包在世界各地的 R 用户中广受欢迎;参见 Wickham(2011)、Wickham 等(2007)和 Wickham 等(2011)。这些软件包抽象并解决了数据科学子领域 “GDS 2:数据表示和转换” 和子领域 “GDS 4:数据可视化和展示” 中的某些常见问题,Wickham 的工具已被很多人认为是不可或缺的。

Wickham(2014)讨论了数据整理的概念。Wickham 注意到(我在上面也说过)通常的估计是,80% 的数据分析都花在了清理和准备数据上,因此他系统地思考了 “凌乱” 的数据格式,并在 R 中引入了一套工具,将它们转换成通用的 “整齐” 的数据格式。他识别了数据分析中常见的几种混乱的数据格式,并展示了如何使用他的工具 melt 和 cast 将每种格式转换为整齐的格式。一旦数据规整好,就可以非常方便地使用 plyr 库中的工具进行操作,然后将得到的输出数据 “cast” 为最终形式,以供进一步使用。

plyr 包抽象了数据分析中非常常见的某些操作,形式为 “将某函数应用于数组的每个元素 / 列 / 行 / 切片(element/column/row/slice)”。一般的想法可以追溯到 Kenneth Iverson 1962 年的 APL 360 编程语言(Iverson 1991),在那里正式化了 reduce 运算符;年轻的读者会看到与 Map/Reduce 和 Hadoop 相关的衍生思想的使用,这使得能在多处理器上并行跑函数。相应地,plyr 为 R 的用户提供了一个非常有效的抽象,特别是教 R 用户很多关于 R 在环境中实现函数作为闭包的特定方式的潜力。

Wickham 不仅开发了一个 R 包,提供了数据整理的工具;他还写了一篇文章,告诉 R 用户这种操作方式的潜力。与许多备受推崇的理论统计文章相比,这一努力对当今数据分析实践的影响可能更大。

8.4.3 研究报告:knitr
作为第三个小插曲,我们提到谢益辉在 R 中的 knitr 包的工作。这有助于数据分析师将可运行的 R 代码与文本混合在源文档,然后通过运行 R 代码编译这些文档,从实时计算中提取结果,并将其插入高质量的 PDF 文件、HTML 网页或其他输出格式。

这样的好处是,数据分析的整个工作流与结果的解释交织在一起,从而节省了通过大量容易出错的手动复制、粘贴、移动来处理计算输出及其在文档中的位置。

由于数据分析通常涉及结论的展示,毫无疑问,从广义数据科学(GDS)的更宏观视角来说,数据科学活动包括报告和展示。以某种基本方式改进这些报告和展示的研究,毫无疑问是对 GDS 的贡献。在这种情况下,我们可以将其视为 “GDS3:基于数据的计算” 的一部分,因为我们正在追踪分析的工作流。正如我们稍后展示的,它还促成了 “GDS6:关于数据科学的科学” 中的重要研究。

8.5 讨论
人们可以列举上述例子,使广义数据科学(GDS)研究更加具体。两个简要例子:

对于子领域 “GDS 4: 数据可视化和展示”,可以提到几个典型的研究贡献:Bill Cleveland 在统计图形方面的工作(Cleveland 等,1985;Cleveland 2013),以及 Leland Wilkinson(2006)和 Hadley Wickham(2011)关于图形语法的著作。

对于子领域 “GDS 1:数据探索和展示”,当然包括 John Tukey(1977)关于探索性数据分析(EDA)的原始研究;最近还有 Cook 和 Swayne 在动态图形方面的工作(Cook and Swayne 2007)。

我们对上述所有研究的主要观点是:

(a) 它不是数理统计甚至机器学习意义上的传统研究;

(b) 事实证明,它对实践数据科学家非常有影响;

(c) 可以而且应该做更多这样的研究。

如果没有像广义数据科学(GDS)这样的分类,就很难知道 “把它放在哪里”,也很难知道给定的数据科学项目是否为整个领域的学者 / 研究人员提供了足够的加持。

9 关于数据科学的科学

广泛的技术活动不一定是一门科学;它可能只是一个行业,比如烹饪,或者是一个技术领域,比如岩土工程。为了有权使用 “科学” 一词,我们必须有一个不断发展的、基于证据的方法。“GDS6:关于数据科学的科学”提出了这样一种方法;我们简要回顾了一些工作,表明我们确实可以进行基于证据的数据分析。我们还在每个例子中都指出了信息技术技能的重要作用,这项工作 “看起来像数据科学” 的程度,以及相关研究人员的专业背景。

9.1 科学范围的荟萃分析(Science-Wide Meta-Analysis)

在 “数据科学之未来”(FoDA)中,Tukey 建议统计学家应该研究当今人们如何分析数据。

通过将多重比较的概念正规化(Tukey 1994),Tukey 提出了一个观点,即可以对整个分析结论进行统计评估。

结合这些想法很快就可以创造出荟萃分析,即我们研究在给定主题上发布的所有数据分析
51
。1953 年,Tukey 文章(Tukey 1994)的导言考虑了一个很小的例子,其中有六个不同的比较正在研究中。如今,仅在临床医学研究中,每年就有超过 100 万篇科学文章发表,并且有许多基于相同干预因素的重复研究。有大量数据分析可用于荟萃研究!

在过去 10 年中,这种荟萃分析的范围取得了惊人的发展;现在,我们将整个科学文献视为一个文本体,需要对其进行收集、处理,并 “抽取” 嵌入其中的数字数据。这些数据被分析以寻找有关元问题(meta-problems)的线索,就像所有科学都在分析数据一样。我可以引用 John Ioannidis 及其合著者的几篇文章(Ioannidis, 2005, 2008;Pan 等人, 2005; Button 等人, 2013),以及统计学家的文章“科学上错误发现率的估计”(An estimate of the science-wise false discovery rate …),Jager 和 Leek(2014)及其所有后续讨论。

特别地,荟萃分析师已经了解到,科学文献中的一部分结论根本不正确,大多数已发表的效果被夸大,许多结果不可重复,诸如此类。

我们的政府每年花费数百亿美元生产了 100 多万篇科学文章。了解实际实践的科学是否成功,甚至整个科学如何改进——这是一个极其重要的问题!

这些研究大多发生在更广泛的应用统计界,例如,在教育、医学、公共卫生等学院。到目前为止,已经取得的惊人成就很大程度上取决于 “文本处理”,即从发布在在线数据库中的摘要中提取数据,或从 PDF 文件中提取数据等等。在这个过程中,我们建立了 “大数据”,例如,Ioannidis 和合作者最近收获了所有 Pubmed 摘要中包含的所有
p

  • 值(Chavalarias 等,2016)。这一领域的参与者正在从事数据科学,他们的目标是回答有关当今实践的科学方法的基本问题。

[50] “在一次统计会议上的讨论中,我曾建议,如果统计学家们看看各行各业的人是如何分析数据的,那可能会很好。一位非常著名的资深统计学家立刻站起来说,这是一个新颖的想法,它可能有价值,但年轻的统计学家应该小心不要沉迷其中。因为这可能会扭曲他们的想法。” Tukey,“数据科学之未来”(FoDA)。

[51] 荟萃分析的实践至少可以追溯到 Karl Pearson。我并不是想暗示 Tukey 是荟萃分析的起源;只是在百年纪念中想指出 John 的工作。

9.2 交叉研究分析

因为医学研究如此广泛,风险如此之高,通常有多项基于相同临床干预的研究,每项研究都由某个特定团队以其特定的方式进行分析。不同的团队对患者结果产生不同的预测,对其预测者的表现也有不同的说法。究竟有哪些预测能真的起作用?

哈佛大学公共卫生学院的 Giovanni Parmigiani 向我解释了一项交叉研究验证练习(Bernau 等,2014 年)。他和共同作者考虑了一系列研究,这些研究开发了通过基因表达测量预测卵巢癌生存率的方法。根据 23 项卵巢癌研究和公开数据,他们创建了一个包含基因表达数据和生存数据的组合数据集,涉及 10 个数据集,共有 1251 名患者。从文献中的 101 篇候选论文中,他们确定了 14 种不同的预测患者预后的预测模型。这套模型用于根据观察到的基因表达预测存活率;而且已经被他们的原始分析人员应用于各个研究数据集,并且在某些情况下与其他研究收集的新数据集进行了验证。

Parmigiani 及其同事考虑了以下交叉研究验证程序:将 14 个模型中的每一个拟合到 10 个数据集中的一个,然后在剩余的数据集中对其进行验证,测量预测风险与实际死亡顺序的一致性,生成一个 14 乘以 10 的矩阵,以便跨数据集研究各个模型,并且还允许跨模型研究单个数据集。

令人惊讶的交叉研究结论出现了。首先,一个团队的模型被明确地确定为优于所有其他团队,尽管在最初的发布中,它报告了比较中间的验证性能。其次,就最初报告的误分类率而言,有一个数据集显然比其他数据集 “更难” 预测。但正是这个数据集产生了整体最佳模型。

表 2. OMOP 数据集。数字表示人或物的数量。因此,左上角的 46.5 M 意味着 4650 万人;而右下方的 110 M 表示 1.1 亿个程序(procedures)。

Acronym Pop. size Source Timerange Drugs Cond Proc
CCAE 46.5 M Private 2003−2009 1.03 B 1.26 B 1.98 B
MDCD 20.8 M Medicaid 2002−2007 360 M 552 M 558 M
MDCR 4.6 M Medicare 2003−2009 401 M 405 M 478 M
MSLR 1.2 M Lab 2003−2007 38 M 50 M 69 M
GE 11.2 M EHR 1996−2008 182 M 66 M 110 M
这项荟萃研究表明,通过访问一组研究中的所有先前数据,并在所有数据集上尝试所有先前的建模方法,可以获得更好的结果,并更充分地了解实际数据分析的问题和缺点。

进行这项研究所付出的努力是惊人的。作者深入研究了 100 多篇科学论文的细节,并充分了解了在每种情况下如何进行数据清理和数据拟合。所有基础数据都被访问并重新处理为新的通用规划格式,数据拟合的所有步骤都经过算法重建,因此可以应用于其他数据集。信息技术再次发挥了关键作用;该项目的大部分编程都是在 R 中完成的。Parmigiani 和合作者是生物统计学家,大量参与 R 软件包的开发。

9.3 跨工作流分析

科学中可变性的一个关键隐藏部分是分析工作流。同一干预的不同研究可能遵循不同的工作流,这可能导致研究得出不同的结论。Carp(2012)研究了 241 项 fMRI 研究的分析工作流程。他发现了几乎与研究一样多的工作流模式!换句话说,研究人员正在为几乎每项 fMRI 研究制定一个新的工作流。

David Madigan 及其合作者(Ryan 等,2012;Madigan 等,2014)研究了观察研究中分析灵活性对效应大小的影响;他们的合作将在下文中称为 OMOP。受此启发,OMOP 作者指出,在临床研究文献中,有对相同数据集、相同干预和结果的研究,但由于分析工作流不同,关于干预风险的结论是完全相反的。Madigan 以吡格列酮与膀胱癌关系为例,这一问题在 BJMP 和 BMJ 上发表的文章在相同的基础数据集上得出了相反的结论!

OMOP 作者汇总了五个大型观测数据集,总共涵盖了超过 2 亿患者 - 年(参见表 2)。

OMOP 组考虑了四种不同的结果,编码为 “急性肾损伤”、“急性肝损伤”、“急性心肌梗死” 和“胃肠道出血”。他们考虑了每种结果的大量可能干预措施,例如,服用药物 X 的患者后来是否会出现结果 Y。下面,“急性肝损伤”代表 “暴露于 X 和急性肝损伤” 的关联。

对于每个目标结果,研究人员确定了一组已知的阳性和阴性对照、干预措施 X,其中 “暴露于 X 与急性肝损伤相关” 等陈述的基本事实被认为是已知的。使用这样的对照,他们可以使用 AUC(area under the operating curve)来量化一个推断程序正确发现关联关系的能力。

OMOP 考虑了七种不同的观察性研究推断程序,分别为 “CC”、“CM”、“DP”、“ICTPD”、“LGPS”、“OS” 和 “SCCS”。例如,“CC” 代表病例对照研究,而 “SCCS” 代表自我控制病例系列。在每种情况下,推理过程都可以完全自动化。

在他们的研究中,OMOP 针对每个数据集、每个可能的结果,考虑了七种观察性研究方法(CC,…,SCCS)中的每一种。

OMOP 报告得出结论,三种所谓的自我控制方法总体上优于其他方法,SCCS 整体表现最为优异。因此,他们的研究揭示了各种推断模式的有效性,提供了一个更好的推断模式图景以及它的潜在准确率的估计。

这项工作呈现了 OMOP 做出的巨大努力:以统一的方式管理数据、程序推断算法,并将其应用于一系列潜在情况。处理大数据是该项目的重要组成部分;但驱动动机是理解科学文献差异的来源,即方法学差异,从此,该领域未来推断的差异可以被理解、限制甚至减少。这项工作的参与者都是统计学家和生物统计学家。

9.4 总结

科学文献的有效性似乎存在重大缺陷(Ioannidis 2007;Sullivan 2007;Prinz、Schlange 和 Asadollah 2011;Open Science Collaboration 等,2015)。在过去的一个世纪里,大量统计方法论得到了发展,很多行业利用这些方法论来发表科研成果。专业群体用户数量庞大,但他们不算是方法论专家。我们不太了解这套方法是如何被使用的,我们也不太了解所取得的成果的质量如何。

数据科学家不应该盲目地炮制方法论,而不关心实践中取得的成果。我们归类为 “GDS6:关于数据科学的科学” 的研究有助于我们理解实际实践中的数据分析是如何影响 “所有科学” 的。

在我们刚刚介绍的研究中,信息技术技能当然非常重要。然而,科学理解和统计洞察力更是应牢牢把控在驾驶席上。

10 未来 50 年的数据科学

2065 年数据科学将往何处去?上述讨论给我们提供了诸多线索,我们现在将这些线索汇总起来。

10.1 开放科学来主导

原则上,科学出版物的目的是使研究结果具有可重复性。几个世纪以来,科学出版物中大量呈现计算结果和数据分析,但通常只会给读者大致描述其数据分析的复杂性。随着计算变得越来越庞大复杂,研究者的工作会愈发难以理解。20 年前,Jon Buckheit 和我总结了我们从斯坦福大学的 Jon Claerbout 那里学到的经验:

科学出版物中,关于计算科学的文章并不是学术成果本身,它们只是学术的广告而已。真正的学术成果,是孕育和诞生数值结果的——完整的软件开发环境、代码和操作指南。

为了实现科学出版物的最初目标,人们应该共享基础代码和数据。此外,这对作者也有好处。从一开始就制定共享代码和数据的计划,这将带来更高质量的工作,并确保作者能够随时追溯自己以前的工作,以及他们的合著者、学生和博士后的工作(Donoho 等,2009)。多年来,这种做法已经得到了更广泛的认同(Stodden 2012;Stodden、Guo 和 Ma 2013),并有所发展(Freire、Bonnet 和 Shasha 2012;Storden、Leisch 和 Peng 2014),尽管它们在今天还远远没有普及。从绝对数值来看,基本不可重复的研究数量远远超过以往(Stodden、Guo 和 Ma 2013)。

今天,可重复计算终于被许多科学领袖视为有效科学出版物的核心要求。美国国家科学院院长 Ralph Cicerone 2015 年的年度致辞强调了这一主题;而资助机构(Collins 和 Tabak,2014)和一些关键期刊(Peng,2009;McNutt,2014;Heroux,2015)已经制定了一系列可重复性计划。

为了在当今的计算环境中实现可重复工作,人们构建了自动化工作流,生成项目中的所有计算和所有分析。相应地,人们可以轻松自然地不断完善和改进早期的工作。

计算结果必须整合到最终出版物中。传统的手工交互运行作业、手工重新格式化数据、查找计算结果以及复制和粘贴到文档中的方法现在被认为是不负责任的。最近,有一些有趣的框架陆续诞生,它们将嵌入式计算脚本与文档创作结合起来。通过在这样的系统所施加的规则内工作,可以使我们轻易地记录特定文章中特定结果的完整计算过程。之前提到的谢益辉的 knitr 就是一个很好的例子。

计算实验的可重复性对产业数据科学和科学出版物同样重要。它给出了一种严格的方法来提出和评估对系统潜在的改进,并将经过验证的改进轻松过渡到生产使用。

可重复计算符合前面提到的 “GDS 4:数据展示” 和“GDS 6:关于数据科学的科学”。特别地,教学生可再重复工作可以更容易、更深入地评估他们的工作;让他们复现他人的分析方法及代码,可以让他们学习探索性数据分析等技能,这些技能常常被直接实践,但却并未系统地教授;训练他们复现工作将使他们毕业后的工作更加可靠。

一直以来,科学资助机构在其资助政策中包含了一个 “形式主义” 的要求,即研究人员应公开代码和数据。然而,这从来没有强制执行过,而且总能以没有标准的方法共享代码数据为借口。如今,有许多正在进行的工作在开发能够实现可重复性的标准工具(Freire、Bonnet 和 Shasha 2012;Stodden、Leisch 和 Peng 2014;Stoddeen 和 Miguez 2014);其中一些是摩尔和西蒙斯基金会(Moore and Simons foundations)知名项目的一部分。我们可以自信地预测,在未来几年,可重复性将得到广泛应用。

[52] 这些工作可以追溯到 Donald Knuth 的文学化编程(Literate Programming)项目。虽然混合代码和文档的文学化编程似乎并不是很流行,但将可执行代码、数据、文档和执行输出紧密结合在一个文档中,这正是计算科学中的可重复研究所要求的。

[53] Martin Helm 教授提醒我还有其他不错的例子;比如 SAS 系统的 StatRep 包,他表示 “SAS 研究所每年两次从 LaTeX 文件中生成数万页 SAS 文档,其中包含运行 SAS 的标记、程序、输出以及统计建议(文本)。当我们测试它时,它比 knitr 更好、更稳定。随着 knitr 的发展,这一点可能会发生变化,但 SAS 并不急于开放并发布改进。"

10.2 作为数据的科学

科学出版物包含大量数字信息,例如,其中报告的
p

  • 值(Chavalarias 等人,2016)。此类信息应作为数据进行研究。今天,获取这些数据并不容易;它需要阅读每篇文章、手动提取和编译,或者网络抓取和数据清理。这两种策略都容易出错且耗时。

随着开放科学在未来 50 年中的广泛应用,一个新的模式变得清晰可见。一篇文章报告中的单个计算结果,以及这些结果的代码和数据,将是标准的,通用的,可引用和可编程检索的。我和 Matan Gavish 写了一些文章(Gavish 和 Donoho,2011 年;Gavish,2012 年),提出了一种打开新世界的方法,然后探讨了这样一个世界中科学的未来。

这些文章定义了可验证计算结果(VCR)的概念,即计算结果,以及关于结果的元数据,这些元数据与 URL 直接绑定,因此可以通过编程永久引用和检索。结合云计算和云存储,Gavish 开发了实现 VCR 概念的服务器框架,将每个关键结果永久记录在服务器上并返回引用 URL。他还提供了客户端库(例如 Matlab),允许创建 VCR 并返回相关链接,并提供对链接引用的数据的编程访问。在文档创建方面,他提供了宏包,将这些链接嵌入到已发布的 TeX 文档中。因此,人们可以轻松编写文档,一篇文章中计算的每个数值结果都可以公开引用和检查,不仅是数值,所有基础计算脚本也可以开放浏览。

如果我们科学出版物中的每一个数字结果,每一个基本算法都是可引用和可检索的,当前的荟萃分析方法自然会更容易执行。人们可以轻松地从 VCR 兼容的文章中提取所有 p- 值,或者以通用且严格可验证的方式提取其中图表中的所有数据点。在这样的世界中,我们在 9.1 节中提到的那种荟萃分析的实践会得到扩展,而且会出现许多新的科学机会。我们举两个例子:

交叉研究控制共享。在这样的世界中,人们可以从以前的研究中提取控制数据(Wandell 等人,2015)。新的机会包括:(a)在未来的研究中拥有更大的对照组;(b)量化特定对照组及其差异对个体研究结论的影响;(c)广泛的 “真实世界” 校准实践,其中两组实际上都是对照组。

交叉研究比较。第 9.2 节和第 9.3 节的交叉研究比较需要研究人员花费大量的精力来手动重建其他作者以前研究中的分析,然后手动整理他们的数据。当研究在计算上可重复并共享代码和数据时,将论文 A 的算法应用于论文 B 的数据将是很简单的,从而更高效地理解不同的工作流和不同的数据集是如何导致结论差异的。我们认为这将成为算法研究的主导趋势。

Gavish(2012)讨论了其他可能性。

10.3 科学数据分析、实证检验

随着科学本身对数据和算法的挖掘变得越来越容易,上文第 9.2 节和第 9.3 节讨论的交叉研究数据共享和工作流共享的方法将得到广泛传播。在未来 50 年,将有足够的数据来衡量算法在所有情况下的性能。统计方法论的游戏规则改变了。我们将基于整个科学文献或其相关子集,通过实证方法严格衡量算法表现,而不是在数学模型中的理想化假设下推导出最佳算法。

当前关于哪些算法适合哪些项目的许多判断将被推翻。我们引用了三个关于分类主题的参考文献,并提供了一些细节。

10.3.1 Hand 等(2006)
在 Hand 等(2006)中,D. J. Hand 总结了 2006 年分类方法研究的现状。他写道:

因此,迄今为止的情况似乎是一个非常实质性的理论进步,导致了深刻的理论发展和实际应用中预测能力的提高。虽然所有这些都是真的,但本文认为,这些发展的实际影响被夸大了;虽然取得了进展,但很可能没有所暗示的那么大……

[在本文中] 核心地论点是,更近的、更先进的发展带来的改进是很小的,而实际问题的各个方面往往使这种小差异变得无关紧要,甚至是不真实的。因此,基于理论基础所获得的结论,或者基于模拟甚至是真实数据集的经验,在实践中并不能转化为真正的优势。也就是说,进展远没有看起来的那么快。

Hand 是如何论证如此大胆的主张的?在实证方面,他使用了文献中 “随机选择的 10 个数据集样本”,并考察了经验分类率。他表明,线性判别分析(LDA,可追溯到 Fisher(1936))在随机猜测基线之上取得了很大改进(90% 或更多)。性能更好的方法虽然更加复杂,但在 LDA 之上的增量提升相对较小。

Hand 的理论观点与 Tukey 在 “数据分析之未来(FoDA)” 中提出的关于理论最优性的观点完全相同:在狭隘的理论模型下进行优化并不能在实践中提升效果。

10.3.2 Donoho 和 Jin(2008)
为了使 Hand 的观点具体化,可以看看我和金家顺(Donoho 和 Jin,2008)在高维分类方面的工作
55

假设我们有数据 ,包含 p
个特征, n
个观测;二分类变量。我们寻找一个分类器,它与一个未标记的特征向量一起对标签 Y 进行预测。我们假设有很多特征,即 p 与 n 相比是很大的。

考虑一个非常简单的方法:一个线性分类器 ,它将选择的特征简单地与权重 或 组合。该方法选择变量 值的绝对值超过某阈值的特征,然后仅使用该特征 t 值的正负符号作为特征系数的正负符号。阈值由 Higher Criticism 统计方法设定。在发表的文章中,它被称为 HC-clip;这是一个非常简单的规则,甚至比经典的 Fisher 线性判别分析要简单得多,因为它不使用协方差矩阵,甚至不考虑不同大小的系数。唯一的微妙之处是在选择阈值时使用了 Higher Criticism。如果不使用这个标准,HC-clip 就回到了 1936 年之前的设定,即在 Fisher(1936) 表明 “必须” 在分类中使用协方差矩阵之前。

Detling(2004)开发了一个框架,用于比较机器学习中常见的基于标准数据集系列的分类器(在两分类情况下,数据集分别称为 ALL、Leukemia 和 Prostate)。他将这些数据集应用于统计学习界流行的一系列标准分类器技术(Boosting 决策树、随机森林、SVM、KNN、PAM 和 DLDA)。Dettling 所比较的机器学习方法大多是 “迷人的”,当前有大量的引用量和拥护者。

与 Hand 的工作相比,我们的工作使用了一组预先存在的数据集,这些数据集似乎不太受选择偏好的影响,因为机器学习者已经在多分类器测试中使用了这些数据集。

[55] 我们当时不知道 Hand 的文章,但得出了类似的结论。

[56] 在计算器时代,不需要乘法只需要加减运算的分类规则有一些优势。我们扩展了 Dettling 的研究,加入了简单的裁剪规则。我们考虑了后悔率(给定数据集上的误分率与该数据集上所有方法中最佳误分率的比率),发现我们的简单方法在这些数据集上的效果与任何其他方法一样好;它甚至有最低的 “最差后悔率”。也就是说,每一种更新潮的技术都会遭受更糟糕的 “最差后悔率”。Boosting、随机森林以及其他很多方法显然更加复杂,而且在机器学习社区中广受欢迎。但是,在机器学习社区中一系列预先存在的基准数据上,这些魅力四射的方法并没有胜过最平平无奇的方法——特征选择加上 HC-clip。

10.3.3 Zhao 等(2014)
在另一个非常有趣的项目中(Zhao 等,2014),Parmigiani 等人讨论了他们所称的 Más-o-Menos 分类器,这是一种线性分类器,其中特征的系数只有 ±1 两种可能;这与刚才讨论的 HC-clip 方法非常相似。事实上,它们的变体之一即包括 HC 选择的那些特征,也就是上一节的方法。我们再次回到 Fisher 使用协方差矩阵之前,即 1936 年之前的设定。

在他们的研究中,Zhao 等人将 Más-o-Menos 与基于惩罚的 “复杂” 分类器(如 lasso、ridge)进行了比较。

至关重要的是,作者们基于临床医学研究中已发表使用的大量数据集,比较了分类器性能。具体来说,他们从膀胱癌、乳腺癌和卵巢癌治疗的文献中整理了一系列数据集,并评估了每种分类方法在这一领域的预测性能。

我们…… 在对真实癌症基因表达研究的广泛分析中证明,[Más-o-Menos] 确实可以在现实环境中实现较高的判别准确率,即使与 lasso 和岭回归相比也是如此。我们的结果为支持其广泛应用于实践提供了一些理论基础。我们希望我们的工作,将有助于把基因组学中正在进行的预测型建模工作的重点,从复杂模型的开发转移到更重要的研究设计、模型解释和独立验证问题。

这其中隐含的观点是,与其他更重要的问题相比,过度投入于开发看似花哨的方法是错误的。他们同时认为:

Más-o-Menos 比惩罚回归等更复杂的方法更优异的一个原因可能是,我们经常使用在一组患者身上训练的预测模型来判别独立样本分类,但这些样本通常是从有异质性的人群中收集的,并在不同的实验室中处理。这种交叉研究变异没有被标准的理论分析捕获,因此理论上的最佳方法在实际应用中可能表现不佳。

与前几小节中讨论的文章(Hand 等,2006;Donoho 和 Jin,2008)相比,这项工作通过挖掘科学文献,直接与特定领域分类问题的从业者对话,用证据告诉他们,假如人们知道如何使用推荐的方法,这些领域的研究将会是什么样的。

10.4 2065 年的数据科学

未来,科学方法论将通过实证分析进行验证。代码和数据共享将使所有学科开放大量数据集和分析工作流。这些内容将被整理成数据和工作流的语料库。因此,统计和机器学习方法的性能最终将取决于我们在第 9.2 和 9.3 节中讨论的交叉研究和交叉工作流方法。由于代码和数据共享,这些量化性能的方法将成为标准。将出现许多新的共同任务框架;然而,新的任务框架并非总是把预测准确性作为评价指标。效果评估还可能涉及所得出结论的有效性,或经验型一类和二类错误。研究将进入元层次,问题变成 “如果我们在所有科学领域使用这样的方法,全球科学研究的产出将提高多少?”,并使用代表科学本身的公认语料库进行量化。

在 2065 年,数学推导和证明不会胜过从最先进的经验主义得出的结论。与 Bill Cleveland 的观点相呼应的是,产生用于数据分析或机器学习的新方法论的理论将被认为是有价值的,因为它在经常发生的问题中具有可量化的好处,如实证所示。

11 结论

本文提到的每一个数据科学概念都涉及到学术统计和机器学习的一些扩展。本文中特别讨论的广义数据科学(GDS)变体源自几十年前关于数据分析和建模的见解。在这个变体中,扩展到数据科学的核心动机是才智。未来,行业对 GDS 灌输的技能可能会有很大的需求;然而,推动这一领域的核心问题是科学问题,而不是工业问题。

广义数据科学(GDS)提出数据科学是从数据中学习的科学;它研究数据分析和处理的方法,并提出以循证方式改进方法的技术模式。随着科学数据和关于科学本身的数据变得无处不在,这门科学的范围和影响将在未来几十年中继续深化。

社会每年已经在科学研究上花费数百亿美元,其中大部分研究由各个高校负责。广义数据科学(GDS)本质上致力于理解和提高大学研究得出结论的有效性,并且可以在所有以数据分析建模为主的领域中发挥关键作用。

尾声

本文的 “1.00 版本” 发布日期为 2015 年 9 月 18 日。自它发布以来,我收到了数十封读者的电子邮件评论。其中四组评论尤其有价值,我将在这里引用它们,并给出我的回应。

数据科学的品牌

佐治亚理工大学工业与系统工程教授吴建福写信给我,指出他在 20 世纪 90 年代一直使用 “数据科学” 一词。在第 4.1 节中,我们已经提到了他在密歇根大学的首次 Carver 讲座。吴建福在那次演讲中提出,统计学要重塑自己。

我们之前提到,2015 年 5 月,英国皇家统计学会(Royal Statistical Society)举办了一场 “辩论”,讨论数据科学实际上只是一种换名,还是革新式的改变,相关视频已公开发布。因此,吴建福的数据科学理念是超前的。

我认为,数据科学不仅仅是统计学的品牌重塑或重新命名。今天的共识是,统计学是数据科学的一个子集。我认为数据科学应该更大,例如,包括 GDS6:关于数据科学的科学。

VIA https://doi.org/10.1080/1……

本文由 cds 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以共同推动STEM公益教育!

楼主残忍的关闭了评论