理解多模态生成式视觉AI

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

AI/미래기술마케팅/광고사진/예술

Transcript

00:00:00很高兴见到大家。就像我在开场时说的，我将深入介绍Flux，这是我们用于生成和编辑图像的模型家族。我是——它在工作吗？我是Black Force Labs的联合创始人Andy。在我开始介绍模型之前，我想先给大家介绍一下我们正在做的事情。在Black Force Labs，我们相信视觉媒体将成为未来人类交流的核心界面。我们将自己定位为核心基础设施提供商，为人类相互交流所使用的所有图像和视频提供支持，这不仅包括相机能捕捉到的，甚至远超于此。带着这个愿景，我们在2024年8月创立了公司。从那时起，我们已发展到45名员工，并在两个总部办公。主要总部位于德国黑森林地区的弗莱堡，我们还在旧金山设有一个办事处。自从我们在2024年8月公司成立时发布了图像生成家族Flux以来，我们一直将发布分为三个不同的层级，并且不断推进模型家族的发展。这些层级如下。我们有Pro模型。它们功能超强，是我们提供的最快的模型。它们仅通过VFL API提供，也通过一些推理合作伙伴提供，例如File和Replicate。我想你们也知道它们。它们非常易于集成，并且几乎可以即时扩展到海量规模。

00:02:03这是第一个层级，但正如你们中的一些人可能知道的，我和我的联合创始人在开源领域有着深厚的根基，我想这和今天邀请我们的创始人很相似。我们也是Stable Diffusion的最初开发者。我们仍然坚持这一点。我们热爱开源社区，这也是为什么我们也提供开放权重和开源模型的原因。

00:02:29我们有Flux Dev模型。这些模型可供公开下载和修改。它们完全可定制，为所有想要使用它们的人提供了极大的灵活性。最后，我们有Flux Schnell模型。它们是完全开源的，在某种程度上，它们是进入Flux生态系统的完美切入点。谈到生态系统，如果你查看Hugging Face上的Model Atlas，它展示了我认为跨领域使用最广泛的开源基础模型，我们实际上可以看到，Hugging Face上拥有最大生态系统的单一最大模型就是我们的Flux Dev模型。这充分表明Flux已经成为开放图像生成的标准。显然，我们期待未来能进一步推进或扩展我们的分发。公司介绍就到这里。我看看它是不是还没好。算了。现在进入演讲的主要部分。

00:03:41我想和大家一起深入了解Flux，特别是我们最新的模型Flux Context，它统一了文本到图像的生成和编辑功能。今天我想谈谈如何实现这种统一。

00:03:56在此之前说几句。我认为拥有这个联合模型非常重要，因为显然图像生成有很多很棒的应用，我们去年也看到了这一点，但图像编辑直到今年才真正跟上同样的发展速度。图像编辑实际上是一个非常重要的用例。它允许我们对现有图像进行迭代，并且我认为，它为人们提供了额外的控制级别，可以精确地修改图像等。这非常重要。通过Flux Context，我们为图像编辑创造了一个决定性的时刻。它于2025年6月发布。这是一个将图像生成与编辑功能（如角色一致性、

00:04:48风格参考、

00:04:50局部编辑等）结合起来的模型，并且速度接近实时。我们稍后会看到。

00:04:57举个好例子，我给大家带来了这排图片。从左到右，我们从一张输入图像开始。然后我们可以提示模型从她的脸上移除这个物体，接着我们可以将她置于一个全新的背景中，同时保持角色的连贯性。这非常重要。过去为了在公开的文本到图像模型基础上实现这种角色一致性，需要进行大量的微调工作，但这种即时图像编辑使我们能够省去所有这些微调，我认为这总是需要一些努力的。实际上，现在只需要四秒钟左右就能完成，这非常惊人。最后，我们可以直接改变场景。在这个例子中，最右边的图片，我们把它变成了一个冬季场景。很酷。这里还有几个它能做到的例子。它不仅擅长角色一致性编辑，还非常适合风格迁移。我们在左侧看到了这一点。我们从输入图像中提取风格并将其映射到新内容，或者我们可以进行文本编辑，例如将“Montreal”改为“Freiburg”，同时保持字体一致。所有这些都集成在一个模型中，你只需通过一个超级简单的文本界面就能与之交互。很酷。非常重要的是，这个模型不仅是一个通用模型，它还非常擅长解决特定、

00:06:27重要且有趣的商业问题。例如，在左边的例子中，我们可以从一张真实场景的图片中提取这条裙子，并且几乎可以立即获得该产品的产品照和特写，同样只需几秒钟。在这些编辑模型出现之前，这需要数小时、

00:06:46数天，甚至根本不可能实现。同样，在右侧的例子中，我们可以在几秒钟内从草图得到一个完全渲染的输出。很酷。正如我之前提到的，Flux Context结合了文本到图像和图像编辑。我们刚刚看了一些例子。现在让我们简要看看这在模型管道方面意味着什么。这里我们看到了经典的文本到图像管道。非常简单。我们都知道它。我们使用一个文本提示。将其输入模型。模型然后进行一些“魔法”操作。我稍后会向大家解释如何创建这样的模型。然后我们得到一张图像，如果模型表现良好，它应该符合我们的输入文本提示。如果你看图像编辑，它看起来就大不相同了。我们从一张图像开始，以某种方式将其展示给模型，然后我们不添加描述整个场景的文本指令，而只添加对该图像的更改。这里我们有两个条件。第一部分，我们只有更多的输入。第一个例子，我们只有一个输入。现在我们描述一个更改，模型应该根据这个更改来修改图像。有些部分，比如这里的教堂，在编辑后应该保持不变。其他的则不然。这就是这些编辑模型所做的事情。这是一个相当不同的任务。将它们组合到一个模型中实际上非常好，因为你可以做所有事情。你可以生成一张图像，然后对其进行编辑，从而获得更多的灵活性。我之前提到过，在我们发布这些编辑模型之前，或者说在我们看到这些通用编辑模型之前，为了将这种控制级别引入模型，需要对文本到图像模型进行大量的微调工作。但现在这不再需要了。我们可以即时完成。这大大缩短了获得良好结果所需的时间。好了，管道部分就到这里。现在，让我们看看我们如何实际训练这些模型。这里有一个非常重要的算法我想谈谈。使我们能够训练这些模型的算法叫做“潜在流匹配”（Latent Flow Matching），它由两个方面组成：潜在（Latent）和流匹配（Flow Matching），我想对这两者都进行一些阐述。

00:09:24让我们从“潜在”开始。这源于潜在生成建模。这是我和我的联合创始人在将近五年前提出的一种算法。为了解释这意味着什么，我们先看下面的例子。我在这里展示的基本上是两张图片，对我们来说，它们看起来完全一样。左边是一张JPEG图片，右边是同一张图片的PNG格式。所以左边是右边的一个近似，但我们看不出任何区别。

00:09:53那么，有人能看出这两张图片有什么区别吗？我想没有。好的，现在我们来看看这些图片的文件大小。JPEG的文件大小实际上比PNG的文件大小小了将近一个数量级。这相当了不起，我们都知道图像压缩是如何工作的，但仅仅意识到我们可以在不察觉的情况下从图像中移除大量信息，我认为这非常了不起。

00:10:26所以显然，图像中有很多信息是我们人眼无法感知的。另一种可视化方式是绘制图像的感知相似度，以上一个例子中的PNG作为图像，其近似值是该图像的JPEG，我们可以将其与文件大小进行对比。这样做时，我们得到了这张图。这是一张概念图，所以它不是真实的，但概念上看起来是这样的。感知相似度迅速增加，然后在几乎整个文件大小范围内保持在一个恒定水平。这就是JPEG等有损压缩算法所利用的原理，你可能会问这与生成建模有什么关系？它告诉我们，对于一个感知信号，或者说一个自然信号，比如图像（音频其实也一样），要看起来真实，或者被感知为真实。我们不需要建模所有我们无法感知的高频细节，因此在像素空间中对所有这些高频细节训练一个生成模型实际上会极大地浪费计算资源和时间，因为模型会学习表示我们甚至无法感知的东西，所以学习这些是毫无意义的，对吧？这就是潜在生成建模的核心。因此，我们不是直接在像素空间中对图像训练生成模型，而是学习一个压缩模型，它提取一个低维的所谓潜在空间。这个潜在空间就是我们在这里中心看到的。我看看激光笔能不能用。哦，是的，就是这个。我们如何学习这个模型？实际上非常简单。

00:12:24我们使用左边的这张图片。我们将其通过编码器，所以这实际上是一个自编码器，我们将图片通过编码器，然后到达这个潜在空间，接着我们将这个表示通过一个叫做正则化的操作。

00:12:42这迫使模型从这个潜在表示中移除信息。它可以离散或连续地实现，然后我们再次从这个潜在表示中重建图像。所以这是一个经典的自编码器，我们训练它基本上产生与输入相似的重建，而且，非常重要的是，我们添加了这个判别器损失。这可以被想象成一个先验，以确保只有对我们人眼感知重要的细节才反映在这个潜在表示中。再次强调，这种正则化迫使模型减少或移除信息，而判别器则确保它移除的是我们无法感知的正确信息。这样一来，一旦我们训练好这个模型，我们就能得到这个潜在空间，然后用它来训练生成模型。潜在空间是输入图像或感知上等效图像的低维表示。这基本上就是潜在流匹配算法的“潜在”方面。现在我们来谈谈第二个方面，流匹配。再次强调，我现在解释的一切都发生在这个潜在空间中。所以我们现在做的任何事情，你都可以在这里看到。在左侧，每张图像基本上都被嵌入到那个潜在空间中。好的，让我们谈谈流匹配。流匹配算法是一类通用的算法家族，用于从一个非常简单的分布（在我们的例子中，总是标准正态分布，所以我们现在谈论的是概率分布）进行转换。我在这里将其可视化。这是一个非常简单的分布。流匹配算法将其转换，或者说为我们提供了一种训练矢量场的方法，这个矢量场由一个神经网络（就是这里这个）表示，用于在简单分布和非常复杂的分布（例如自然图像的数据分布）之间进行映射。所以这就是数据分布。我们如何训练它？流匹配算法为我们提供了一种非常简单的方法。在训练过程中，我们所要做的就是从这个标准正态分布中抽取一个样本。所以我们有一个样本，然后我们将其分配给数据分布中的一个样本，一个训练示例，我们将它们耦合起来，然后我们就可以构建这种直接线性连接它们的矢量。

00:15:34如果你对训练数据集中的每个例子都这样做，也就是说，我们取一个例子，从标准正态分布中随机采样一个点，然后将它们连接起来，那么我们就会得到这种构造出来的矢量场。我现在可以讲很多关于矢量场的性质。一个重要的性质是路径在矢量场中不能交叉，而我们看到这里有很多交叉发生，所以这显然不是在每个分布点之间，或者说在这个分布和那个分布之间进行转换的真实矢量场。

00:16:13流匹配的惊人之处在于，如果你遵循这个规则，也就是说，我们训练模型基本上总是预测数据样本和标准正态分布样本之间的这类矢量。我们就能得到真实的矢量场，它看起来就像这样。所以我们在这里看到路径不再交叉，流匹配算法保证了这一点。这有点像魔法，但如果你用数学方式写下来，我们实际上会发现这是有道理的。通过这种方式，我们就可以训练模型来表示这个在标准正态分布和我们的数据分布之间进行转换的真实矢量场。

00:17:00重要的是，我们希望能够根据文本输入创建图像，所以我们所做的是，基本上对于每个图像示例，我们总是将这个网络条件化为一个文本输入。很酷。

00:17:17那么，当我们对模型进行采样时，我们在做什么呢？我们有这个矢量场，它代表了这两个分布之间的映射。我们所做的是，从标准正态分布中抽取一个样本。我们可以用计算机从中采样，对吧？我们都知道。然后我们沿着由神经网络表示的这些轨迹进行积分。我们可以用简单的欧拉前向算法来完成。可能很多人都知道它们。所以，通过数值积分方案，我们可以在这里沿着这些轨迹进行积分，然后得到数据样本。我们再次将其通过解码器，然后就得到了。所以，再次强调，这发生在潜在空间中，但在这里我们又回到了像素空间。这就是我如何根据文本提示创建图像的方式。很酷。有一点，这些数值积分方案相当，我认为，它们使用了大量的步骤，所以它们将这个过程一步一步地分解成多达50个步骤。因此，这些潜在流匹配模型本身相当慢，生成一张图像大约需要30秒到一分钟，这有点长。

00:18:32我很快就会讲如何让它们变快。但这就是通用的潜在流匹配算法。所以“潜在”再次连接或代表这个我们训练模型的潜在空间。而流匹配算法就是我们刚刚在这里讨论的。好的，现在我解释了如何根据文本提示创建图像，但现在这如何应用于上下文，也就是一个编辑模型呢？这也非常简单。所以这是一个基本的Flux Context架构。它是一个Transformer模型。我们都知道。

00:19:05它有点特别，但其魔力在于输入。所以我们在这里左侧看到模型的输入。首先是文本输入，它通过文本编码器嵌入到一组文本标记中。然后我们有在上一张幻灯片中看到的图像编码器，对吧？就是这里这个。这就是我们现在在这里看到的。所以我们有这个图像编码器，并且我们有两组视觉标记。首先是我们实际用于生成的视觉标记集。这将是输出图像。然后，如果我们想进行图像编辑，我们有第二组视觉标记，它们只是建模或表示上下文图像。所以基本上是我展示给模型的参考图像。然后我们所做的是将它推送到Transformer模型。它是一个特殊的模型，因为它包含所谓的双流块。这些，我可以说，是针对每种保真度的一种专家模型。所以在这里我们分别处理视觉标记和文本标记。

00:20:20除了注意力操作之外，所有其他操作，注意力操作都是在所有标记上共同进行的。然后我们有标准块，标准的Transformer块，在注意力操作之前，我们基本上用相同的映射来映射所有输入、

00:20:42文本标记和视觉标记。这样，我们就可以进行图像编辑了。

00:20:48如果你在这里提供一张输入图像，而如果你进行文本图像生成，你就不提供这张图像，那么我们就只有文本提示作为输入，对吧？很酷。最后一点。这个模型为什么这么快？我不知道你们中有多少人了解Flux模型。也许知道Flux模型的人可以举手？哦，确实有一些。好的，很酷。所以我们都知道它们非常快，对吧？我说快是什么意思？我们基本上比同类模型快几个数量级。例如，我们在这里看一个显然很慢但很好的模型，GPD Image One。同样在编辑方面，Flux模型在这里快了10倍以上，甚至20倍以上。所以，与同等强大的模型相比，它们的速度简直是疯了。原因是我们两三年前开发的一种算法。它叫做对抗性扩散蒸馏（adversarial diffusion distillation），这个算法的目标是减少数值积分步骤的数量。我之前告诉过你们，对于一个标准的流匹配模型，通常是50步，而这里的目标是将其减少到最少四步。每个数值积分步骤都意味着神经网络的一次前向传播，所以我们可以想象这会花费很长时间，因此我们希望尽可能地减少它。它是如何工作的呢？我们在这里初始化两个网络，一个教师网络和一个学生网络。它们都通过我刚才展示的算法从学习到的流匹配模型中初始化。然后我们所做的是训练学生网络，使其在四步内获得与教师网络在50步内相同的输出图像质量。这就是目标，我们就是这样做的。我们从一张图像开始，再次将其编码为潜在表示，然后我们为学生网络在四步内或我们想要的目标步数内生成一张输出图像。然后我们再次将其解码为像素。

00:23:08最初，这张图片看起来非常模糊，很不真实。显然，目标是改进它。所以我们所做的是再次使用它，再次将其编码为潜在表示，然后对教师模型做同样的事情，但用50步而不是4步。这会产生一张高质量的图像，然后我们使用这个蒸馏损失，基本上只是一个损失，以确保学生模型的分布与教师模型的分布匹配。不幸的是，仅仅这样做并不能让我们生成看起来真实的图像。所以我们添加了另一个判别器损失。我们之前在演讲的潜在生成建模部分的自编码器部分已经看到了这一点。这基本上是相同的。所以我们训练一个判别器来区分学生模型生成的图像和我们在这里输入的真实图像。这发生在dyno v2特征空间或某种学习到的图像表示模型空间中。通过这种方式，我们最终可以训练模型生成逼真的图像，而不是使用50步，它只需要4步。这显然是一个巨大的加速。然而，最后一点。如果我们看这里这个东西，它看起来相当，我想说有很多开销，对吧？因为这里我们必须侵入潜在空间。所以我们从图像空间开始，成为潜在空间的文化，然后我们再次解码，然后我们必须再次编码和再次解码。然后我们，这个也再次编码到另一个表示空间。很多开销，很多与此相关的内存成本。这非常，当我们提出它之后，对此感到惊讶，因为它允许我们训练快速模型。训练它非常费力。所以我们思考，好吧，我们如何才能真正简化它？答案总是那个答案。只要有像素，就把它移到潜在空间。所以我们所做的是提出了一种潜在对抗性扩散蒸馏方法。它基本上与我们为通用潜在生成建模算法所做的事情非常相似。我们只是将这里的一切都移到潜在空间。同样的事情，但我们不再需要使用这些编码器和解码器，我们可以直接摆脱它们。重要的是，作为判别器，我们不再使用dyno。

00:25:44这个图像表示模型，我们使用教师模型，因为它反正已经存在于潜在空间中，为我们提供了非常好的图像表示。所以我们也可以使用教师模型作为判别器。其余部分基本上都差不多。我们还移除了蒸馏损失。我们发现我们不需要它，这也挺酷的。

00:26:06这样一来，我们减少了损失，一切都简化了。通过这种方式，我们实际上可以以一种非常内存高效的方式，将积分步骤从五步减少到四步。所以我们获得了12.5倍的加速，这正是我们在本节开头向大家展示的图中看到的数量级。所以，这基本上就是我们如何从一个流匹配模型，一个基础流匹配模型中获得一个非常快的模型。现在，在这次演讲结束之前，我实际上给大家带来了一个演示，展示Flux的实际应用。让我们看看。所以我们在这里用它进行图像编辑。我稍后上传一些东西。我们在这里做什么？这个看起来不错。是的。好的。是的。这个很好。所以这里我从我最喜欢的足球俱乐部，弗莱堡足球俱乐部（SC Freiburg soccer club）的标志开始。在美国我得说“soccer”。好的。这是我最喜欢的俱乐部，我想用这个标志制作一件T恤。所以我们说把这个标志放到T恤上。感觉有点奇怪，因为我面前没有屏幕。好的。开始了。正在生成。我把它弄小一点。

00:27:53也许像这样。好的。不错。我们等几秒钟，就能得到T恤上这个漂亮的标志。现在好玩的是，我们可以继续，对吧？我们可以迭代。所以，比如说这个标志有点太大了，我想。把标志缩小，放到其他部分。再来一次。等几秒钟。好的。很酷。我们得到了一个非常好的结果。这正是我想要的。我想再从这个开始。现在我想改变颜色，因为弗莱堡足球俱乐部的颜色不是黑色，是红色。所以把T恤变成红色。也超级简单。现在我们进行局部编辑。我们只是编辑图像的局部，对吧？在这个例子中是颜色。重要的是，我们现在已经进行了几次编辑，我们仍然看到标志的表示非常一致。这就是我们看到的角色或在这种情况下是物体的一致性。这非常重要。想想一个营销人员，他有一个物体，想把它放到特定的背景中，对吧？从商业价值来看，这很棒，非常重要。现在最后我们添加一个更复杂的转换。我们可以说把T恤穿在一个在公园里散步的男人身上。哎呀。所以这是一个复杂的转换，你可能会说，好吧，像改变颜色这样的事情你可以在Photoshop里做，对吧？从历史上看，这类事情，这不是标准或早期的非AI图像生成工具能够做到的。这实际上非常棒。所以现在我们有了这种男人，最后，我想时间到了，但让我们做最后一件事，展示这个模型的通用性。我们也可以进行风格迁移，对吧？所以我们说把它变成一幅水彩画。

00:30:42好的，最后一个。在这些模型出现之前，你可能需要为每种任务单独进行微调，而现在我们可以将它们整合到一起，这非常酷。不错。所以现在我可以把它打印出来挂在墙上什么的。总之，是的，我认为这展示了这些模型的强大之处。哦，好像出了点问题。我想展示最后一张幻灯片，因为我讲完了，但我们正在招聘，如果你想加入我们，请扫描这里或访问演示平台，我刚刚展示的演示是免费提供的。非常感谢。希望大家有所收获。

Key Takeaway

Black Force Labs的Flux Context模型通过创新的潜在流匹配和潜在对抗性扩散蒸馏算法，成功统一了文本到图像的生成与编辑功能，实现了前所未有的速度和灵活性，使其成为多模态生成式视觉AI领域的强大工具。

Highlights

Black Force Labs推出了Flux系列模型，旨在成为未来视觉媒体交流的核心基础设施提供商，并提供Pro、Dev和Schnell三个层级。

Flux Dev模型已成为开放图像生成的标准，拥有Hugging Face上最大的生态系统，体现了公司在开源领域的深厚根基。

最新的Flux Context模型于2025年6月发布，成功统一了文本到图像的生成和编辑功能，实现了角色一致性、风格参考和局部编辑等近乎实时的操作。

Flux Context通过即时图像编辑，大大减少了过去实现角色一致性所需的微调工作，显著提升了效率和灵活性，尤其在商业应用中价值巨大。

Flux模型的核心训练机制是“潜在流匹配”算法，该算法利用低维潜在空间建模感知上重要的图像信息，并通过矢量场实现简单分布到复杂数据分布的转换。

为实现极速生成，Flux模型采用了“潜在对抗性扩散蒸馏”（LADD）算法，将图像生成所需的数值积分步骤从约50步减少到4步，实现了10-20倍的速度提升。

演示展示了Flux Context在T恤设计、局部颜色修改、复杂场景转换和风格迁移等多种图像编辑任务中的通用性和高效性，所有操作均在一个模型中完成，无需单独微调。

Timeline

公司愿景与Flux模型家族介绍

演讲者Andy介绍了Black Force Labs的愿景，即成为未来视觉媒体交流的核心基础设施提供商，支持所有图像和视频的生成与编辑。公司成立于2024年8月，目前拥有45名员工，并在德国和旧金山设有办事处。他详细阐述了Flux模型家族的三个层级：Pro模型（功能强大、速度最快，通过API提供）、Dev模型（开源权重、可定制，已成为开放图像生成的标准）和Schnell模型（完全开源，易于入门）。Andy强调了公司在开源领域的深厚根基，作为Stable Diffusion的早期开发者，他们致力于推动开源社区的发展。

Flux Context：统一图像生成与编辑

本节深入介绍了Flux Context，这是Black Force Labs于2025年6月发布的最新模型，旨在统一文本到图像的生成和编辑功能。演讲者强调了图像编辑的重要性，因为它提供了迭代和精确修改图像的额外控制级别。Flux Context能够实现角色一致性、风格参考和局部编辑等功能，并且速度接近实时。通过具体示例，如在保持角色一致性的前提下移除物体或改变背景，以及在几秒钟内完成产品照片和草图渲染，展示了该模型在商业应用和效率提升方面的巨大潜力。

模型管道：生成与编辑的结合

演讲者对比了经典的文本到图像生成管道和图像编辑管道，并解释了将两者结合到一个模型中的优势。传统的文本到图像管道仅依赖文本提示生成图像，而图像编辑则需要输入图像和修改指令。Flux Context的统一架构意味着用户可以先生成图像，然后直接对其进行编辑，从而获得更大的灵活性。这种集成消除了过去为实现特定控制（如角色一致性）而对文本到图像模型进行大量微调的必要性，显著缩短了获得高质量结果所需的时间。

潜在流匹配算法：核心训练机制

本节详细讲解了Flux模型训练所依赖的核心算法——“潜在流匹配”。首先，他解释了“潜在”的概念，源于潜在生成建模，指出人眼无法感知图像中的所有高频细节，因此在像素空间训练生成模型是计算资源的浪费。通过一个自编码器学习一个低维的“潜在空间”，并结合判别器损失，确保只有感知上重要的细节被保留。接着，他介绍了“流匹配”部分，这是一种通用的算法家族，用于训练一个神经网络表示的矢量场，将简单的标准正态分布转换为复杂的数据分布（如自然图像），并确保转换路径不交叉，最终实现基于文本输入的图像生成。

模型采样与加速技术

演讲者首先解释了模型采样过程：从标准正态分布中抽取样本，沿着神经网络表示的轨迹进行数值积分，最终在潜在空间得到数据样本，再通过解码器还原为像素图像。他指出，标准的潜在流匹配模型因需要多达50步的数值积分而速度较慢。为了解决这一问题，Black Force Labs开发了“对抗性扩散蒸馏”（ADD）算法，旨在将积分步骤减少到最少4步，从而实现10-20倍的加速。随后，他介绍了“潜在对抗性扩散蒸馏”（LADD）的改进，通过将所有操作移至潜在空间并优化判别器，进一步简化了训练过程，提高了内存效率，并实现了显著的速度提升。

Flux Context功能演示与总结

演讲者通过一个生动的实时演示展示了Flux Context的强大功能。他以SC Freiburg足球俱乐部的标志为例，演示了如何将其放置在T恤上，并进行了一系列迭代编辑，包括调整标志大小和位置、将T恤颜色改为红色（局部编辑），以及将T恤穿在一个在公园散步的男人身上（复杂场景转换）。演示还展示了风格迁移功能，将图像转换为水彩画风格。他强调，这些多样化的任务都可以在一个统一的模型中完成，无需单独进行微调，极大地提升了工作效率和创造性。最后，他总结了Flux模型的强大之处，并提及公司正在招聘。

Community Posts

Flux Context：整合實時圖像生成與編輯的次世代 AI 指南

makedream2026년 1월 25일3440

Write about this video