Mixtral / DeepSeek / GPT-4 等大模型都用 MoE(混合专家)架构—— 模型里有 8 个甚至更多"专家",每个 token 只激活其中 2 个。 总参数 8×7B = 56B,但激活只用 14B——省 4 倍计算。
正常 LLM:每个 token 都过完整模型(70B 参数全用)。
MoE:训一组"专家",每个 token 选 2 个最合适的过—— 参数总量大(能记更多),但每次计算少(省算力)。 总参数和激活参数解耦。
训出来的专家**没有人为指定**专精领域—— 但 token-级路由模式涌现出某种"专业化"。
研究者观察到: 某些专家偏好"代码"、有的偏"中文"、有的偏"标点"—— 但不像图里这么干净。**真实情况更模糊**。