🧩 NLP 基础 · 8 分钟
Tokenizer Vocabulary Map:BPE 词表里都有什么
GPT-4 词表 ≈100K tokens。它们都长什么样?
哪些是常见英文词?哪些是中文?哪些是代码符号?哪些是玄学拼接?
本可视化展示一个浓缩版(300 个代表性 token),按"语义类别 + 频率"聚类。
词表地图(300 token 抽样)
300 / 300 显示
悬停查看详情
↑ 把鼠标移到上面任意 token 上查看 ID、类别、估算频率。
⚡ 关键观察
- 英文占绝对主导:GPT-4 词表里 60-70% 是英文相关——这是模型"英文最强"的物理原因。
- 中文常被切碎:常见汉字(你/我/是/的)有专属 token,但很多双字词被拆成两个单字 token。
- 代码符号占大头:
def、return、{} 都有独立 token——这是 LLM "会写代码"的基础。
- 玄学 token 真实存在:
SolidGoldMagikarp、PsyNetMessage 等——来自训练语料里某个频繁出现的怪字符串。
- 频率分布是长尾:top 1000 token 覆盖 80% 文本,剩下 99K token 只覆盖 20%。