2024年7月

Token:生成式人工智能中的基本单位


1、什么是Token?

8abe32e1-a232-4e56-af59-e6d82df9f11a.png

在生成式人工智能的上下文中,Token(词元)指的是文本处理过程中的最小语义单元,通常是特殊定义下一些字符的集合。这些字符包括字母、数字、标点符号以及特殊字符,如换行符等。Token通常由一个数字来表示,它们是大型语言模型或基础模型消费文本的方式。您向模型提供词语,它会将它们转换为Token。作为一般规则,一个Token通常包含四个英文字符(这大约相当于一个单词的 ¾),或者一个汉字,因此一百个Token大约等于75个英文单词,或者 40~50 个汉字(均包含标点符号)。


全球最受欢迎的十大人工智能工具


尽管人们担心人工智能会取代人类,但大部分“打工人”还是在工作中积极拥抱AI来提高工作效率。根据FlexOS收集的Similarweb网站流量数据,2024年5月份,OpenAI的ChatGPT使用量增长了74%,网站访问量从4月份的18亿次增至31亿次。

5e5d54a3-66ac-428e-b0b2-8f309bd01e96.jpg

ChatGPT是2024年5月份全球工作中使用最多的生成式人工智能工具,紧随其后的竞争对手包括谷歌Gemini和Anthropic的Claude。


使用Ollama本地部署开源语言模型


本地部署人工智能模型,不仅通过重视和利用资源赋予个人权力,而且还培育出更加分散和民主的数字生态系统。也就是说,不仅增强了隐私和安全性,还引入了个人计算作为数字时代潜在货币的有趣概念。

b05e457a-5294-4758-83d6-25954520ec60.webp

Ollama是一个易用的本地语言模型运行框架,可以一键启动并运行Meta Llama 3、Microsoft Phi 3、Google Gemma 2和其他更多开源语言模型(很棒,这也是一份很好的开源语言模型清单,和NVIDIA提供的最受欢迎的基础模型列表一样,Llama 3位列第一),并支持自定义模型导入。本文基于 Windows 11 + 32 GB + RTX 2080 Ti + Hollama/Open WebUI + Llama 3/3.1 8B 及 Llama 3.2 Vision 11B 模型实践。