"训练模型"的本质就是下山——损失函数构成一片地形,优化器找最低点。 SGD、Momentum、Adam 是三种风格迥异的登山者,点击下面的地图任意位置,看它们从同一起点出发,走出三条不一样的路。
θ ← θ - lr · ∇f(θ)
最直接:把参数往梯度反方向挪 lr 倍。
v ← β·v - lr·∇f(θ) θ ← θ + v
v 是"速度",累积了过去的方向。β=0.9 让 90% 旧速度保留。
m ← β₁·m + (1-β₁)·g v ← β₂·v + (1-β₂)·g² θ ← θ - lr·m̂ / (√v̂ + ε)
同时维护一阶(动量)和二阶(变量尺度)矩,自适应每维步长。