数据采集那些事

数据科学,人工智能 2022-09-08 882 次浏览 0 条评论 次点赞

最早的网站数据采集形式可能是离线浏览器,通常可能叫Website Ripper、Website Downloader、Website Copier或者Website Grabber,给定一个站点链接,就可以下载有链接关系的所有页面和附件,并保持原始网站的相对链接结构。

HTTrack.jpg

抓取一个网站的所有内容既不厚道(未经许可制作镜像站点)、不现实(大多动态内容不能下载)也不实用(下载了许多对自己没有价值的内容),于是进化成为网页采集器。网页采集器使用正则表达式制定路径和过滤规则,轻松地批量获取目标内容的文章内容,却不带任何代码和样式,有利于制作看起来是自己原创的东西。

后来人们又对网络上的结构化数据产生了兴趣,比如想要收集电商网站的产品名称、图像、描述和价格,就有相应的服务出来了,叫数据采集器。Python 语言热度高涨,很大一部分原因是由于人们拿它来开发和运行网络爬虫。


人工智能如何获得数据集


在人工智能领域,数据集在训练、验证和测试人工智能模型时具有决定性作用,进而决定着人工智能究竟有多智能。人工智能需要有史以来最多的数据集。

现在,视频成为最繁荣的行业,生成影像的人工智能工具也竞相诞生,影像数据集是最庞大的分类。那么像DALL·E(OpenAI)、Imagen(Google)、Transframer(DeepMind)、Stable Diffusion(Stability.Ai)这些生成影像模型是如何获得数据集的呢?

以下以最新发布的 Stable Diffusion 为例。

Stability AI 的愿意是构建开放式 AI 工具,为唤醒人类潜能奠定基础,尊重创新而不是传统,不怕违反既定规范并探索创造力。

这种创新也体现在其获取图片数据集这件事情上。

我们知道,Stable Diffusion 开放了模型和应用平台,其实,它还开放了自己的数据集。


LAION-5B


Stable Diffusion 是根据 LAION 收集的三个大型数据集进行训练的。LAION是一家非营利组织,其计算时间主要由 Stable Diffusion 的所有者 Stability AI 提供资金。

LAION 收集了网络上所有具有 alt-text 属性的 HTML 图像标签,生成 58.5 亿个图像的数据集 LAION-5B。然后过滤掉低分辨率和可能带有水印的图像,对 LAION-5B 进行基于分辨率、主观视觉质量(审美)等标准的分类,主要有:

LAION5B High-Res:LAION5B 的一个子集,由超过 1024x1024 的高分辨率图像组成,包含 1.7 亿个样本。

LAION Aesthetics:LAION5B 的一个子集,由训练模型估计为仅包含美观的图像,主要是水彩风景和女性肖像。

image-24-1024x437.jpg

LAION-2B-EN:LAION5B 的一个子集,由 23 亿张 alt-text 属性为英文标注的低分辨率图像组成,Stable Diffusion 主要在 LAION-2B-EN 上进行训练。

图像数据集是 AI 文本到图像生成器的核心,它依赖于它们提供用于解构和创建新图像的大量视觉材料。LAION 是世界上最大的免费 AI 训练数据集,驱动科技行业的 AI 军备竞赛进入超速时代,已用于文本到图像生成器,例如 Google 的 Imagen 和 Stable Diffusion。

LAION 等数据库中的许多图像和链接一直在网络上显而易见,在某些情况下已经存在了几十年。人工智能的繁荣才揭示了它的真正价值,因为数据集越大、越多样化,其中的图像质量越高,人工智能生成的图像就会越清晰、越精确。

1000x-1.jpg

LAION 是由德国汉堡Gymnasium Klosterschule中学的物理和计算机科学教师Christoph Schuhmann与一小群志愿者合作构建的。Bloomberg的文章《The Future of AI Relies on a High School Teacher’s Free Database》讲述了数据集及构建者的故事。


分析LAION-5B


Simon WillisonAndy Baio 抓取了 LAION-2B-EN 中的 12,096,835 张图像数据,制作了一个数据浏览器,这部分图片占 LAION-2B-EN 的 0.5%。

laion-aesthetic.datasette.jpg

他们还分析了这些图片的特性。

来源


1、近一半的图片(约 47%)仅来自 100 个域,其中来自 Pinterest 的图片数量最多,总数据集的 8.5%。
2、用户生成的内容平台是图像数据的巨大来源,来自 wp.​​com 和 wordpress.com 共有 819k 张图片,占所有图片的 6.8%。
3、来自艺术印刷品和海报销售网站共有 698k 图像,占所有图片的 5.8%。
4、各种商业图库。

人物


艺术家

在数据集中排名前 25 位的艺术家中,只有三位仍然在世:Phil Koch、Erin Hanson 和 Steve Henderson。
数据集中出现频率最高的艺术家是 Thomas Kinkade。

名人

image-26.jpg

Donald Trump 是图像数据集中被引用次数最多的名字之一,紧随其后的是 Charlize Theron 。

虚构人物

Captain Marvel(4,993 张图片)、Black Panther(4,395 张)和Captain America(3,155 张)等来自 MCU 的角色是数据集中表现最好的角色。

👍

本文由 cds 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以共同推动STEM公益教育!

还不快抢沙发

添加新评论