您所在的位置：首页 - 手机 - 正文手机

人刚毕业，颠覆整个界：扒一扒两带头人博士论文

admin 08-09 【手机】 891人已围观

摘要机器之心报道机器之心编辑部看看这个时代最伟大AI学者的研究脉络。2024年是生成式AI元年，才到2月，人刚毕业，颠覆整个界：扒一扒两带头人博士论文OpenAI就用Sora把竞争推向了视频生成的新高度。我们都还记得初见Sora作品时受到的震撼，感叹其他竞争对手想要赶上OpenAI，至少也得需要个半年到一年的时间。Sora发布后，其开发团队自然也成为关注焦点，人们都想知道具有跨时代意义的AI技术是如何被开发出来的。DiT模型作者谢赛宁曾表示：「他们每天基本不睡觉高强度工作了一年」。随着时间推移，答案

机器之心报道

机器之心编辑部

看看这个时代最伟大AI学者的研究脉络。2024年是生成式AI元年，才到2月，人刚毕业，颠覆整个界：扒一扒两带头人博士论文OpenAI就用Sora把竞争推向了视频生成的新高度。

我们都还记得初见Sora作品时受到的震撼，感叹其他竞争对手想要赶上OpenAI，至少也得需要个半年到一年的时间。

Sora发布后，其开发团队自然也成为关注焦点，人们都想知道具有跨时代意义的AI技术是如何被开发出来的。DiT模型作者谢赛宁曾表示：「他们每天基本不睡觉高强度工作了一年」。

随着时间推移，答案正被慢慢揭晓。

以下是OpenAI技术报告中，Sora的十三位作者：

其中的前两位，TimBrooks、BillPeebles，他们被认为是「Sora之父」，担任OpenAISora项目研究主管，又十分年轻——两人都是2023年刚刚从加州大学伯克利分校（UCBerkeley）博士毕业的。

在Sora技术公开后，他们曾共同进行宣讲，接受过很多媒体采访。

图片中间为TimBrooks，右侧为BillPeebles。

看两人的工作经历，他们分别是在2023年1月和3月加入OpenAI的。

我们知道，2022年11月30日，OpenAI的ChatGPT横空出世，由此掀起了大模型「颠覆世界」的浪潮。

他们追随传奇而来，如今回头望去，自己也成为了传奇。

作为Sora背后的主要推动者，TimBrooks、BillPeebles两人的博士毕业论文，也都是以AI视频生成为主题的。是时候从技术发展的角度，来研究一下Sora的来龙去脉了。

TimBrooks

个人主页：https://www.timothybrooks.com/about/

TimBrooks博士毕业于UCBerkeley的「伯克利人工智能研究所」BAIR，导师为AlyoshaEfros。

在博士就读期间，他曾提出了InstructPix2Pix，他还曾在谷歌从事为Pixel手机摄像头提供AI算法的工作，并在英伟达研究过视频生成模型。博士毕业后，TimBrooks加入OpenAI，参与过GPT-4、Sora等多项研究。

2023年，TimBrooks顺利毕业，博士论文接近100页。论文题目为《GenerativeModelsforImageandLongVideoSynthesis》。

论文地址：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf

论文简介

在这篇博士论文中，TimBrooks提出了将图像和视频生成模型用于一般视觉内容创作的基本要素，主要体现在三个方面：

首先，论文介绍了长视频生成相关研究，并提出一种网络架构和训练范式，用于从视频中学习长程时间模式，这是将视频生成从较短的剪辑推进到较长形式且连贯视频的关键挑战。

接下来，论文介绍了基于人体姿态生成场景图像的研究，展示了生成模型用来表示人与周围环境之间关系的能力，并强调了从大型且复杂的日常人类活动数据集中学习的重要性。

最后，论文介绍了一种通过结合大型语言模型和文本到图像模型的能力来创建监督训练数据，从而指导生成模型遵循图像编辑指令的方法。这些工作共同提升了生成模型合成图像和长视频的能力。

TimBrooks表示，在他读博期间（2019-2023年），图像和视频生成模型已经从小范围的演示发展成被广泛采用的创意工具。他非常庆幸自己能在这个关键的时刻攻读视觉生成模型的博士学位，他也对生成模型充满了信心。

接下来我们介绍一下TimBrooks博士论文每章节的主要内容。

第2章专注于生成具有丰富动态和新内容的长视频。图2.1展示了模型能够生成丰富的运动和场景变化。

，时长

00:10

来源：https://www.timothybrooks.com/tech/long-video-gan/

本章的主要贡献是一个分层生成器架构，生成器概览图如下所示。

第3章介绍了从反映日常人类活动的复杂现实世界数据中学习的研究。人、物体及其周围环境之间的相互作用提供了有关世界的丰富信息来源。TimBrooks提出了一种通过条件生成模型学习这些关系的方法。早期的生成模型主要集中在特定的内容类别上，例如人脸或特定的对象类。这项工作将生成模型扩展到用人类建模复杂场景的领域。只要输入一个人的骨骼姿态，该模型就能够生成与该姿态兼容的合理场景。该模型既可以生成空场景，也可以生成输入姿态中有人类的场景。

本小节还设计了一个条件GAN来生成与人类姿态兼容的场景，网络架构基于StyleGAN2，如图3.3所示。

这篇论文还强调了通过对日常人类活动的大型视觉数据集进行训练，来理解视觉世界复杂关系的能力。

第4章提出了一种新技术，教生成模型遵循人类编辑指令。图4.1显示了模型执行图像编辑指令的示例，图4.2显示了在文本消息会话中使用的模拟接口。

由于难以大规模获取基于指令的图像编辑训练数据，该研究提出了一种生成配对数据集的方法，该方法结合了多个在不同模态上预训练的大型模型：大型语言模型（GPT-3）和文本到图像模型（StableDiffusion）。这两个模型捕获了关于语言和图像的互补知识，可以将它们结合起来为跨两种模态的任务创建配对训练数据，而这两种模态中的任何一个都无法单独完成。

使用生成的配对数据，TimBrooks训练了一个条件扩散模型，该模型在给定输入图像和有关如何编辑文本指令的情况下，生成编辑后的图像。该模型可以直接在前向传播中执行图像编辑，不需要任何其他示例图像、输入/输出图像的完整描述或每个示例的微调。尽管模型完全在合成示例上进行训练，但其实现了对任意真实图像和人类指令的零样本泛化。该模型可以按照人类指令执行各种编辑：替换对象、更改图像样式、更改设置、艺术媒介等。

最后，我们看一下论文中的一些结果。

与其他方法的比较结果如下：

总的来说，这篇博士论文确定了未来视觉生成模型的三个关键组成部分：随着时间的推移建模长程模式，从复杂的视觉数据中学习，以及遵循视觉生成指令。这三个要素对于开发超级智能至关重要，因为它可以执行复杂的视觉创造任务，帮助人类创造，并将人类的想象力带入生活。

William(Bill)Peebles

个人主页：https://www.wpeebles.com/

2023年，William(Bill)Peebles在伯克利人工智能研究中心获得了博士学位，导师是AlyoshaEfros，与TimBrooks师出同门。

William(Bill)Peebles本科毕业于麻省理工学院，曾在FAIR、AdobeResearch和NVIDIA实习过。在攻读博士学位期间，他得到了美国国家科学基金会（NSF）研究生研究奖学金计划的支持。

William(Bill)Peebles的博士论文以图像生成模型为主题，论文题目是《GenerativeModelsofImagesandNeuralNetworks》。

论文地址：https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y

大规模生成模型推动了人工智能的最新进展。这种范式使得人工智能的许多问题取得了突破，其中自然语言处理（NLP）领域是最大的受益者。

给定一个新任务，预训练生成模型可以零样本地解决该任务，也可以在少量特定于任务的训练样本上进行有效的微调。

然而，在视觉、元学习等领域，生成式模型的进展却落后了。

William(Bill)Peebles的博士论文研究了训练改进的、可扩展的两种模态（图像和神经网络参数）的生成式模型的方法，并研究了如何利用预训练生成式模型来解决其他下游任务。

首先，该论文证明保留了扩散模型图像生成扩展特性的扩散transformer（DiT），优于之前主导该领域的卷积神经网络。

值得注意的是，DiT架构是在一篇题为《ScalableDiffusionModelswithTransformers》的论文中被正式提出的，第一作者就是WilliamPeebles，另外一位论文作者是纽约大学的谢赛宁。

然后，William(Bill)Peebles的博士论文提出了一种新型学习框架，旨在基于构建新数据源（神经网络检查点）的生成式模型进行学习。

该论文创建了包含数十万次深度学习训练运行的数据集，并使用它来训练生成式模型。给定起始参数向量和目标损失、错误或奖励，在此数据上训练的损失条件扩散模型可以对实现所需指标的参数更新进行采样。

这种方法克服了以前元学习算法的许多困难——它可以优化不可微目标，并省去不稳定的展开优化方法。与SGD和Adam等基于梯度的迭代优化器无法从优化历史中学习不同，该论文提出的生成模型只需一次生成的参数更新即可通过随机初始化来优化神经网络。

该论文证明，预训练GAN生成器可用于创建无限数据流来训练网络，以解决密集视觉相关问题，而无需任何人工注释的监督。该论文表明，采用完全由GAN生成的数据进行训练的神经网络，性能优于之前在真实数据上训练的自监督和关键点监督方法。

该论文将所提框架应用于视觉和强化学习问题，并探讨了如何使用预训练图像级生成模型来处理视觉领域的下游任务，而无需特定于任务的训练数据。

参考内容：

https://www.timothybrooks.com/about/

https://www.wpeebles.com/

Tags：人刚毕业颠覆整个界扒一扒两带头人博士论文

上一篇：吴艳妮奥运舞台的璀璨瞬间，15秒超长镜头背后的荣耀时刻

下一篇：滞留宇航员下不来，NASA的回应与挑战

您所在的位置：首页 - 手机 - 正文手机

人刚毕业，颠覆整个界：扒一扒两带头人博士论文

目录[+]