HelloAI ← 可视化画廊
🦅 大模型 · 8 分钟

MoE:让 8 个"专家"分工合作

Mixtral / DeepSeek / GPT-4 等大模型都用 MoE(混合专家)架构—— 模型里有 8 个甚至更多"专家",每个 token 只激活其中 2 个。 总参数 8×7B = 56B,但激活只用 14B——省 4 倍计算

试试:
分词结果(点击 token 看路由)
8 个专家
· 路由到:
总参数
56B
8 专家 × 7B 各自参数
激活参数(每个 token)
14B
每次只用 2 个专家
效率提升
vs 直接用一个 56B
🎯

为什么 MoE 这么强

正常 LLM:每个 token 都过完整模型(70B 参数全用)。

MoE:训一组"专家",每个 token 选 2 个最合适的过—— 参数总量大(能记更多),但每次计算少(省算力)。 总参数和激活参数解耦。

🧠

"专家"专精什么?

训出来的专家**没有人为指定**专精领域—— 但 token-级路由模式涌现出某种"专业化"。

研究者观察到: 某些专家偏好"代码"、有的偏"中文"、有的偏"标点"—— 但不像图里这么干净。**真实情况更模糊**。

📝 演示说明: 这里给每个专家人为指定了"专长领域"(代码 / 中文 / 数学等)方便理解。 真实 MoE 模型里,专家是无监督训出来的,专长是**涌现**的、不那么清晰。 主流 MoE 模型:Mixtral 8x7B(8 专家)、Mixtral 8x22B、DeepSeek-V2(160 专家)、Gemini 1.5 Pro(推测)、Llama 4(推测)。