1、什么是Token?
在生成式人工智能的上下文中,Token(词元)指的是文本处理过程中的最小语义单元,通常是特殊定义下一些字符的集合。这些字符包括字母、数字、标点符号以及特殊字符,如换行符等。Token通常由一个数字来表示,它们是大型语言模型或基础模型消费文本的方式。您向模型提供词语,它会将它们转换为Token。作为一般规则,一个Token通常包含四个英文字符(这大约相当于一个单词的 ¾),或者一个汉字,因此一百个Token大约等于75个英文单词,或者 40~50 个汉字(均包含标点符号)。