分类 数据科学 下的文章

数据采集那些事


最早的网站数据采集形式可能是离线浏览器,通常可能叫Website Ripper、Website Downloader、Website Copier或者Website Grabber,给定一个站点链接,就可以下载有链接关系的所有页面和附件,并保持原始网站的相对链接结构。

HTTrack.jpg

抓取一个网站的所有内容既不厚道(未经许可制作镜像站点)、不现实(大多动态内容不能下载)也不实用(下载了许多对自己没有价值的内容),于是进化成为网页采集器。网页采集器使用正则表达式制定路径和过滤规则,轻松地批量获取目标内容的文章内容,却不带任何代码和样式,有利于制作看起来是自己原创的东西。


Python 量化投资最简入门


量化投资就是利用计算机科技并采用一定的数学模型去实现投资理念、实现投资策略的过程。量化投资的优势在于提高了我们分析的广度和深度,通过历史回测获取概率优势,同时自动交易过程可以规避人性中的诸多弱点。随着大数据和人工智能的发展,量化投资将成为市场的主流投资工具,并且将与传统的基本面分析和技术分析深度结合。

maxresdefault.jpg

许多量化投资入门教程通常教授用 Python 通过爬虫从网络接口爬取股票数据,用 matplotlib 绘制 K 线和均线,基于 Numpy+Pandas+Matplotlib 进行数据分析,并用 sklearn 库的机器学习方法预测股票后市价格(如《基于股票大数据分析的Python入门实战》),但我们从 Python 使用现成数据源入手。以下主要介绍新浪财经的金融数据源,以及在 Python 中使用数据 API 和独立数据库的简要步骤。


星洲:只要有数据,就需要数据科学


迈入网络时代,数据增长迅速,几乎每个网络平台或机构都在收集数据,以从中找出解决问题的方案或洞悉未来趋势,并应用在各个领域,如商业、医疗、生产等,进而也产生了新的相关职业,就像数据科学家。

e857c2b9-2990-41db-8457-dc4e104dab9b6e8d7a7a-9239-4b0a-ab45-3cf7c635c2c9.jpg

究竟数据的用处是什么?为什么数据变得越来越重要?而数据科学家的工作职责又是什么?不妨通过本期〈教育导航〉来了解数据科学的潜力。


DS简报(Nov.2020)


Google Career Certificates

maxresdefault.jpg

谷歌推出了一项新的职业证书项目(Google Career Certificates),关注三个高薪、高成长的职业领域——数据分析、项目管理和用户体验设计。这些课程不需要先前的学位或经验,将由专门研究这三个领域的Google员工设计和教授。谷歌还宣布将开始承认谷歌学习证书的地位,用来代替入门级职位的四年制大学学位。