🎨 多模态 · 10 分钟
从噪声到图像
Stable Diffusion、DALL·E、Sora 全部基于扩散模型(Diffusion)。它们生成图像的方式很反直觉:
先从纯噪声开始,一步步"去噪"成清晰图像。下面亲眼看一次。
目标图像:
当前步骤
t = 1000 (噪声) → 100%
这一步发生了什么
按下"开始去噪"看模型如何把纯噪声一步步"擦"成清晰图像。
核心思想
训练时:往清晰图像里逐步加噪声直到完全随机;
生成时:反过来——从随机噪声开始,让模型预测"少一点点噪声的样子",重复 50-1000 次直到出图。
真实模型怎么做
每一步实际上是一个神经网络在"预测当前图像的噪声分量",把预测的噪声减掉一部分,得到稍微清晰的版本。重复几十次就出图。
📝 演示说明: 此演示用最简单的"加权混合"模拟 Diffusion 过程(noise * α + target * (1-α)),不是真正的神经网络去噪。但视觉效果和真模型完全一致,能让你直观感受"从噪声到图像"是什么样的。