Introduction
约 885 字大约 3 分钟
2026-04-09
生成数据类型
本节探讨不同数据模态的数值化表示方法:
- 图像:对于高 H、宽 W 的 RGB 图像,由像素强度值组成,表示为 z∈RH×W×3。
- 视频:视为随时间变化的图像序列,若包含 T 帧,则表示为 z∈RT×H×W×3。
- 分子结构:一种朴素表示法是利用矩阵 z=(z1,…,zN)∈R3×N,其中 N 为原子数,zi∈R3 描述原子位置。
综上,无论原始数据形式如何,生成目标最终在数学上均统一表示为向量(必要时经过展平)。
核心思想 1 (对象作为向量)
我们将被生成的对象识别为向量 z∈Rd。
这是为您精简后的版本,保留了核心逻辑与数学公式:
生成即采样
生成任务并非寻找单一的“最佳”结果,而是通过数据分布 pdata 来建模数据的多样性。
数学上,pdata 是一个概率密度函数 pdata:Rd→R≥0,它为每个对象 z 分配一个似然度。例如,越像狗的图像,其 pdata(z) 值越高。因此,生成任务被数学化地定义为从该分布中采样。
核心思想 2(生成即采样)
生成对象 z 被建模为从数据分布中采样:z∼pdata。
生成模型旨在从 pdata 生成样本。由于无法直接获取真实分布,我们使用有限的数据集作为其代理来进行训练。
核心思想 3(数据集)
数据集由有限数量的样本组成:z1,…,zN∼pdata。
数据集(如图像、视频或蛋白质结构库)规模越大,越能准确代表底层分布 pdata。
引导/条件生成
在许多场景中,我们需要基于特定数据 y(如文本提示)来生成对象。这在数学上被重新表述为从条件分布中进行采样。
核心思想 4(引导生成)
引导生成涉及从条件分布中采样:z∼pdata(⋅∣y),其中 y 是条件变量。
我们将 pdata(⋅∣y) 称为引导数据分布。引导生成任务通常涉及学习如何基于任意(而非固定)的 y 进行条件生成。虽然无条件生成技术很容易推广到条件情况,但为了简化,前几节将主要关注无条件情况。
生成模型抽象地说,是一种返回 z∼pdata 样本的算法。本课程将重点关注使用流模型或扩散模型构建生成模型,因为它们代表了当前的最先进水平。
本节总结(生成即采样)
- 对象表示:主要考虑生成表示为向量 z∈Rd 的对象(如图像、视频、分子结构)。
- 生成任务:即从概率分布 pdata 中生成样本,训练时可访问样本数据集 z1,…,zN∼pdata。
- 引导生成:假设分布基于标签 y 进行条件化,我们需要从 pdata(⋅∣y) 中采样,训练数据为成对样本 (z1,y),…,(zN,y)。
- 目标:构建一个生成模型,即训练后能返回 pdata 样本的模型。