分类数据科学下的文章

David Donoho：数据科学 50 年

本文译自 David Donoho (2017): 50 Years of Data Science，发表在 Journal of Computational and Graphical Statistics 杂志。在正式发表前数年，其初版就广为流传，引发了学术界深入、持续的讨论。原文以 1962 年 Tukey 的著名文章 The Future of Data Analysis 作为数据科学元年，如此来算数据科学迄今已逾 60 年。故译本文以为纪念。 Donoho 是斯坦福大学统计系教授及人文与科学学院 Anne T. and Robert M. Bass 讲席教授。他在关于稀疏数据、小波分析、图像的稀疏表达、凸优化、压缩感知等领域的工作，在统计、数学、电子工程等学科和产业界有着深远的影响。Donoho 是美国国家科学院院士、法国科学院外籍院士。他曾经获得过麦克阿瑟奖、约翰 · 冯 · 诺依曼讲座奖、邵逸夫奖等。

64f78ee1d49618f094e64111_vationventures_datascience.jpeg

本文译者：于嘉傲，审校：魏太云、邱怡轩，为了便于网页阅读，对表格、脚注进行了调整，并更新了失效的网页链接。原文链接：https://doi.org/10.1080/10618600.2017.1384734，统计之都中文译本：https://cosx.org/2023/03/50-years-of-data-science-cn/。

阅读全文

2025-03-31 cds 0 条评论 264 次浏览

数据科学人工智能

即将颠覆世界的六个年轻“志愿者”

六位未满25岁的科技天才是马斯克DOGE（政府效率部）的“六君子”（《每日邮报》称为“书呆子大军”）。他们手握AI、数据科学和自动化技术，意图用代码取代政客，用算法消灭低效，以科技之力撬动整个国家机器。

由于信奉（1）未来十年全球风险集中在环境、技术和社会治理（世界经济论坛《2024年全球风险报告》），和（2）全球治理转型、人工智能技术和特朗普新政加速旧国际秩序崩溃这两个理论和判断，转发本文以介绍人工智能、数据科学和自动化应用于社会治理。

阅读全文

2025-02-08 cds 0 条评论 882 次浏览

数据科学

普适计算（Ubiquitous Computing）

Mark Weiser是一位美国计算机科学家，曾担任施乐帕洛阿尔托研究中心（Xerox PARC）的首席技术官（CTO）。Weiser被广泛认为是“普适计算之父” ，他于 1988 年创造了“普适计算”（Ubiquitous Computing，简称ubicomp）一词。

阅读全文

2024-11-28 cds 0 条评论 840 次浏览

数据科学人工智能

数据采集那些事

最早的网站数据采集形式可能是离线浏览器，通常可能叫Website Ripper、Website Downloader、Website Copier或者Website Grabber，给定一个站点链接，就可以下载有链接关系的所有页面和附件，并保持原始网站的相对链接结构。

抓取一个网站的所有内容既不厚道（未经许可制作镜像站点）、不现实（大多动态内容不能下载）也不实用（下载了许多对自己没有价值的内容），于是进化成为网页采集器。网页采集器使用正则表达式制定路径和过滤规则，轻松地批量获取目标内容的文章内容，却不带任何代码和样式，有利于制作看起来是自己原创的东西。

阅读全文

2022-09-08 cds 0 条评论 3467 次浏览

数据科学

5个优秀的Python端到端数据科学项目

本文是《5 Solved end-to-end Data Science Projects in Python》的节选，介绍 5 个优秀的数据科学项目，既有适合初学者的项目，也有高级项目，它们都是运用Python实现的，通过这些项目你可以充分了解数据科学对于企业的价值所在。

阅读全文

2021-07-28 cds 0 条评论 1350 次浏览

数据科学

Python 量化投资最简入门

量化投资就是利用计算机科技并采用一定的数学模型去实现投资理念、实现投资策略的过程。量化投资的优势在于提高了我们分析的广度和深度，通过历史回测获取概率优势，同时自动交易过程可以规避人性中的诸多弱点。随着大数据和人工智能的发展，量化投资将成为市场的主流投资工具，并且将与传统的基本面分析和技术分析深度结合。

许多量化投资入门教程通常教授用 Python 通过爬虫从网络接口爬取股票数据，用 matplotlib 绘制 K 线和均线，基于 Numpy+Pandas+Matplotlib 进行数据分析，并用 sklearn 库的机器学习方法预测股票后市价格（如《基于股票大数据分析的Python入门实战》），但我们从 Python 使用现成数据源入手。以下主要介绍新浪财经的金融数据源，以及在 Python 中使用数据 API 和独立数据库的简要步骤。

阅读全文

2021-06-11 cds 0 条评论 2400 次浏览

数据科学

星洲：只要有数据，就需要数据科学

迈入网络时代，数据增长迅速，几乎每个网络平台或机构都在收集数据，以从中找出解决问题的方案或洞悉未来趋势，并应用在各个领域，如商业、医疗、生产等，进而也产生了新的相关职业，就像数据科学家。

e857c2b9-2990-41db-8457-dc4e104dab9b6e8d7a7a-9239-4b0a-ab45-3cf7c635c2c9.jpg

究竟数据的用处是什么？为什么数据变得越来越重要？而数据科学家的工作职责又是什么？不妨通过本期〈教育导航〉来了解数据科学的潜力。

阅读全文

2021-04-28 cds 0 条评论 1803 次浏览

数据科学

DS简报（Nov.2020）

Google Career Certificates

谷歌推出了一项新的职业证书项目（Google Career Certificates），关注三个高薪、高成长的职业领域——数据分析、项目管理和用户体验设计。这些课程不需要先前的学位或经验，将由专门研究这三个领域的Google员工设计和教授。谷歌还宣布将开始承认谷歌学习证书的地位，用来代替入门级职位的四年制大学学位。

阅读全文

2020-12-26 cds 0 条评论 1714 次浏览

酷玛DS

酷玛DS

David Donoho：数据科学 50 年

即将颠覆世界的六个年轻“志愿者”

普适计算（Ubiquitous Computing）

数据采集那些事

5个优秀的Python端到端数据科学项目

Python 量化投资最简入门

星洲：只要有数据，就需要数据科学

DS简报（Nov.2020）

Google Career Certificates