🦅 大模型 · 8 分钟

MoE：让 8 个"专家"分工合作

Mixtral / DeepSeek / GPT-4 等大模型都用 MoE（混合专家）架构—— 模型里有 8 个甚至更多"专家"，每个 token 只激活其中 2 个。总参数 8×7B = 56B，但激活只用 14B——省 4 倍计算。

输入文本

试试：

分词结果（点击 token 看路由）

8 个专家

— · 路由到：—

总参数

56B

8 专家 × 7B 各自参数

激活参数（每个 token）

14B

每次只用 2 个专家

效率提升

4×

vs 直接用一个 56B

🎯

为什么 MoE 这么强

正常 LLM：每个 token 都过完整模型（70B 参数全用）。

MoE：训一组"专家"，每个 token 选 2 个最合适的过—— 参数总量大（能记更多），但每次计算少（省算力）。总参数和激活参数解耦。

🧠

"专家"专精什么？

训出来的专家**没有人为指定**专精领域—— 但 token-级路由模式涌现出某种"专业化"。

研究者观察到：某些专家偏好"代码"、有的偏"中文"、有的偏"标点"—— 但不像图里这么干净。**真实情况更模糊**。

📝 演示说明： 这里给每个专家人为指定了"专长领域"（代码 / 中文 / 数学等）方便理解。真实 MoE 模型里，专家是无监督训出来的，专长是**涌现**的、不那么清晰。主流 MoE 模型：Mixtral 8x7B（8 专家）、Mixtral 8x22B、DeepSeek-V2（160 专家）、Gemini 1.5 Pro（推测）、Llama 4（推测）。