HelloAI ← 可视化画廊
🧩 NLP 基础 · 8 分钟

Tokenizer Vocabulary Map:BPE 词表里都有什么

GPT-4 词表 ≈100K tokens。它们都长什么样? 哪些是常见英文词?哪些是中文?哪些是代码符号?哪些是玄学拼接? 本可视化展示一个浓缩版(300 个代表性 token),按"语义类别 + 频率"聚类。

100% 显示
滑动到左边可只看"最常见 token" — 这是模型 95% 时间在用的部分。
词表地图(300 token 抽样)
300 / 300 显示
悬停查看详情
↑ 把鼠标移到上面任意 token 上查看 ID、类别、估算频率。
英文(完整词+子词)
~60%
代码 / 符号
~10%
非英文(含中文)
~20%
"玄学" token
~5%

⚡ 关键观察

配套
Tokenizer Playground
输入文本看实时切分
画廊
所有可视化
15+ 互动演示