🎨 多模态 · 10 分钟

从噪声到图像

Stable Diffusion、DALL·E、Sora 全部基于扩散模型（Diffusion）。它们生成图像的方式很反直觉： 先从纯噪声开始，一步步"去噪"成清晰图像。下面亲眼看一次。

目标图像：

去噪时间线（左到右：噪声→图像）

当前步骤

t = 1000 (噪声) → 100%

去噪进度 0 / 50 步

这一步发生了什么

按下"开始去噪"看模型如何把纯噪声一步步"擦"成清晰图像。

核心思想

训练时：往清晰图像里逐步加噪声直到完全随机； 生成时：反过来——从随机噪声开始，让模型预测"少一点点噪声的样子"，重复 50-1000 次直到出图。

真实模型怎么做

每一步实际上是一个神经网络在"预测当前图像的噪声分量"，把预测的噪声减掉一部分，得到稍微清晰的版本。重复几十次就出图。

📝 演示说明： 此演示用最简单的"加权混合"模拟 Diffusion 过程（noise * α + target * (1-α)），不是真正的神经网络去噪。但视觉效果和真模型完全一致，能让你直观感受"从噪声到图像"是什么样的。