Speculating LLMs’ Chinese Training Data Pollution from Their Tokens

GPT中的受污染的中文tokens

虽然是GPT的tokens但是GPT却无法理解他们

定义和分类

  • 定义:我们对被污染的中文token(PoC tokens)的正式定义是:从当前主流汉语语言学的角度,来自LLM词汇表的中文token,对不良、不常见或无用的内容进行编码(即3U原则)
  • 分类:1. 成人内容包括明显或者隐含的性暗示。2. 线上赌博代表赌博网站,赌博活动。3. 线上游戏:非正式或者官方认证的游戏服务 4. 线上视频代表线上视频平台或者流内容。5. 异常代表少见、奇特或者是上下文无关内容。

PoC tokens导致GPT的奇怪输出