Introduction

约 885 字大约 3 分钟

2026-04-09

生成数据类型

本节探讨不同数据模态的数值化表示方法：

图像：对于高 $H$ 、宽 $W$ 的 RGB 图像，由像素强度值组成，表示为 $z \in \mathbb{R}^{H \times W \times 3}$ 。
视频：视为随时间变化的图像序列，若包含 $T$ 帧，则表示为 $z \in \mathbb{R}^{T \times H \times W \times 3}$ 。
分子结构：一种朴素表示法是利用矩阵 $z = (z^1, \ldots, z^N) \in \mathbb{R}^{3 \times N}$ ，其中 $N$ 为原子数， $z^i \in \mathbb{R}^3$ 描述原子位置。

综上，无论原始数据形式如何，生成目标最终在数学上均统一表示为向量（必要时经过展平）。

核心思想 1 (对象作为向量)

我们将被生成的对象识别为向量 $z \in \mathbb{R}^d$ 。

这是为您精简后的版本，保留了核心逻辑与数学公式：

生成即采样

生成任务并非寻找单一的“最佳”结果，而是通过数据分布 $p_{\text{data}}$ 来建模数据的多样性。

数学上， $p_{\text{data}}$ 是一个概率密度函数 $p_{\text{data}}: \mathbb{R}^d \to \mathbb{R}_{\ge 0}$ ，它为每个对象 $z$ 分配一个似然度。例如，越像狗的图像，其 $p_{\text{data}}(z)$ 值越高。因此，生成任务被数学化地定义为从该分布中采样。

核心思想 2（生成即采样）

生成对象 $z$ 被建模为从数据分布中采样： $z \sim p_{\text{data}}$ 。

生成模型旨在从 $p_{\text{data}}$ 生成样本。由于无法直接获取真实分布，我们使用有限的数据集作为其代理来进行训练。

核心思想 3（数据集）

数据集由有限数量的样本组成： $z_1, \ldots, z_N \sim p_{\text{data}}$ 。

数据集（如图像、视频或蛋白质结构库）规模越大，越能准确代表底层分布 $p_{\text{data}}$ 。

引导/条件生成

在许多场景中，我们需要基于特定数据 $y$ （如文本提示）来生成对象。这在数学上被重新表述为从条件分布中进行采样。

核心思想 4（引导生成）

引导生成涉及从条件分布中采样： $z \sim p_{\text{data}}(\cdot|y)$ ，其中 $y$ 是条件变量。

我们将 $p_{\text{data}}(\cdot|y)$ 称为引导数据分布。引导生成任务通常涉及学习如何基于任意（而非固定）的 $y$ 进行条件生成。虽然无条件生成技术很容易推广到条件情况，但为了简化，前几节将主要关注无条件情况。

生成模型抽象地说，是一种返回 $z \sim p_{\text{data}}$ 样本的算法。本课程将重点关注使用流模型或扩散模型构建生成模型，因为它们代表了当前的最先进水平。

本节总结（生成即采样）

对象表示：主要考虑生成表示为向量 $z \in \mathbb{R}^d$ 的对象（如图像、视频、分子结构）。
生成任务：即从概率分布 $p_{\text{data}}$ 中生成样本，训练时可访问样本数据集 $z_1, \ldots, z_N \sim p_{\text{data}}$ 。
引导生成：假设分布基于标签 $y$ 进行条件化，我们需要从 $p_{\text{data}}(\cdot|y)$ 中采样，训练数据为成对样本 $(z_1, y), \ldots, (z_N, y)$ 。
目标：构建一个生成模型，即训练后能返回 $p_{\text{data}}$ 样本的模型。