🧩 NLP 基础 · 8 分钟

Tokenizer Vocabulary Map：BPE 词表里都有什么

GPT-4 词表 ≈100K tokens。它们都长什么样？哪些是常见英文词？哪些是中文？哪些是代码符号？哪些是玄学拼接？本可视化展示一个浓缩版（300 个代表性 token），按"语义类别 + 频率"聚类。

按类别筛选

按频率排序（左：高频 → 右：低频） 100% 显示

滑动到左边可只看"最常见 token" — 这是模型 95% 时间在用的部分。

词表地图（300 token 抽样）

300 / 300 显示

悬停查看详情

↑ 把鼠标移到上面任意 token 上查看 ID、类别、估算频率。

英文（完整词+子词）

~60%

代码 / 符号

~10%

非英文（含中文）

~20%

"玄学" token

~5%