🎮 交互演示 · 5 分钟玩转
AI 是怎么"切"你的字的?
LLM 不直接看字,它看 token。同一句话,GPT-4、Claude、Llama-3 切出的 token 数差别巨大——这直接决定了你 API 账单的多少。试试看:
试试:
🛈 提示:
悬停在 token 上看详情
·
▁ 表示前置空格
Token 数
0
每个字符 0.0 tokens
API 成本估算
$0.0000
按 GPT-4o 输入价 $5/M tok
🤔
为什么中文比英文贵
现代 tokenizer 用 BPE(字节对编码)训练,常见 ASCII 序列被合并成单个 token;
而中文字符在 UTF-8 里是 3 字节,且训练语料里中文占比低,结果就是 1 个汉字 ≈ 2–3 个 token。
所以同样长度的内容,中文 API 调用费用通常是英文的 2 倍以上。
💡
为什么 token 数影响一切
Token 数决定了:① API 费用(按 token 算钱);
② 模型上下文容量("128k 上下文"是 128k 个 token,不是字);
③ 推理速度(每生成一个 token 都是一次完整前向)。
理解 tokenizer,是理解 LLM 工程效率的第一步。
📝 关于精确度: 这个 Playground 使用基于规则的近似 tokenizer 模拟真实模型行为(不调用付费 API),结果与真实 tokenizer 在数量级和趋势上一致,但具体 token 边界可能略有差异。生产环境请使用各厂商官方库(tiktoken / anthropic-tokenizer / sentencepiece)。