Tokenizer Playground · 看 AI 怎么"切"你的字

输入文本

试试：

切分结果

🛈 提示：悬停在 token 上看详情 · ▁ 表示前置空格

Token 数

每个字符 0.0 tokens

字符

字节

API 成本估算

$0.0000

按 GPT-4o 输入价 $5/M tok

三模型横向对比

同一段文字，谁切得更省？

越短越便宜 · 越短上下文容得越多

GPT-4o

cl100k_base

$0.0000

Claude

~65k vocab

$0.0000

Llama 3

128k vocab

免费

在你输入的文本上，…切得最省。

🤔

为什么中文比英文贵

现代 tokenizer 用 BPE（字节对编码）训练，常见 ASCII 序列被合并成单个 token；而中文字符在 UTF-8 里是 3 字节，且训练语料里中文占比低，结果就是 1 个汉字 ≈ 2–3 个 token。所以同样长度的内容，中文 API 调用费用通常是英文的 2 倍以上。

💡

为什么 token 数影响一切

Token 数决定了：① API 费用（按 token 算钱）； ② 模型上下文容量（"128k 上下文"是 128k 个 token，不是字）； ③ 推理速度（每生成一个 token 都是一次完整前向）。理解 tokenizer，是理解 LLM 工程效率的第一步。

📝 关于精确度： 这个 Playground 使用基于规则的近似 tokenizer 模拟真实模型行为（不调用付费 API），结果与真实 tokenizer 在数量级和趋势上一致，但具体 token 边界可能略有差异。生产环境请使用各厂商官方库（tiktoken / anthropic-tokenizer / sentencepiece）。

AI 是怎么"切"你的字的？

同一段文字，谁切得更省？

为什么中文比英文贵

为什么 token 数影响一切