谷歌刚刚解决了多模态 AI 的最大痛点（Gemma 4 12B）

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareConsumer Electronics

Transcript

00:00:00Google 刚刚发布了他们最新的 Gemma 4 120 亿参数模型，这简直是一个游戏规则改变者。

00:00:06不，我是说真的，这不是标题党。这个模型在构建方式上的确是一个游戏规则改变者。

00:00:13它与所有其他 AI 模型最大的不同在于，它完全是

00:00:18无需编码器的。那么，这意味着什么，它是如何工作的，为什么这意义重大呢？

00:00:24嗯，这些都是好问题，我们将在今天的视频中深入探讨。这会非常

00:00:29有趣。让我们开始吧。Gemma 4 120 亿参数模型拥有一种全新的架构，

00:00:39它完全打破了其他所有多模态模型的工作方式。多模态模型。哦，天哪，

00:00:46这真是个绕口令。为了理解为什么这如此重要，我们必须

00:00:51看看目前其他所有多模态模型是如何处理事物的。语言模型被构建为读取

00:00:57词元 (tokens)，即本质上转化为数字的文本块。它们并不天然知道像素是什么，或者

00:01:05声波长什么样。所以我们通常会把不同的模型拼凑在一起。如果你给 AI 一张图片，一个庞大的

00:01:11视觉编码器会首先拦截它。它会消耗大量的处理能力将原始像素转化为

00:01:19大语言模型 (LLM) 真正能理解的语言。音频也是如此。一个单独的语音编码器必须

00:01:25先翻译声波。当 AI 的真正大脑接收到数据时，你已经在

00:01:32同时运行三个独立的网络了。在标准笔记本电脑上，这会完全占用你的显存 (VRAM) 并拖慢

00:01:38所有速度。但 Google DeepMind 看到了这个问题并思考，如果我们能省掉

00:01:44中间商会怎样？所以在 Gemma 4 120 亿模型中，他们彻底删除了沉重的视觉编码器。相反，

00:01:51当你给它输入一张图片时，模型会将其切成 48x48 像素的小块。与其将

00:01:58这些小块通过单独视觉网络中的几十层处理，原始像素会穿过一个

00:02:04单一精简的数学步骤，称为线性投影。这个线性投影只是一个庞大的数字网格，

00:02:11它接收 2304 个像素值，因为这对应于一个 48x48 像素的正方形，通过

00:02:19一个单一步骤进行相乘，并将它们拉伸成单行，完美匹配大语言模型的文本词元

00:02:26格式。所以它目前还没有分析图像中有什么，只是对原始数据进行了重新格式化，以便它能通过

00:02:32模型。如果你看看标准模型，它们的视觉编码器是非常庞大的。例如，

00:02:38这一个有 5.5 亿个参数。这是因为传统的编码器需要大量数据来重塑、

00:02:45映射和理解图像。它有几十个内部注意力层来计算像素之间的

00:02:50关系，试图在交给文本模型之前找出边缘在哪里、形状是什么、以及物体可能是什么。

00:02:57但 DeepMind 通过彻底删除所有这些沉重的脑力处理，将其缩小了。他们意识到

00:03:04主要的语言主干本身已经非常聪明，并且有足够的层来做实际的视觉推理。

00:03:10因此，通过移除所有那些思考层，他们只留下了 3500 万个参数，这字面上只是映射

00:03:17这些像素网格到文本格式所需的原始物理连接权重计数。所以这是一个适用于每张图片的静态单层映射。

00:03:24因为它不进行任何内部思考，所以几乎不占用任何处理能力，从而释放了显存，

00:03:30让主要大语言模型原生处理实际的智能。为了理解那个单一步骤是如何工作的，

00:03:37你必须看看大语言模型主干内部到底发生了什么。每个语言模型都有一个

00:03:44内部格式化规则，称为隐藏维度。可以把它想象成标准化的托盘尺寸。无论是

00:03:50单词“苹果”、一段代码还是一个标点符号，所有进入大语言模型的内容都必须转换

00:03:56成这种特定的巨大数字列表，因为它必须匹配矩阵的维度。而这个原始的

00:04:0448x48 像素块只是 2304 个单独颜色数字的网格。如果你尝试直接将该原始块

00:04:11输入到大语言模型中，模型会拒绝它，因为维度根本不匹配。这就是

00:04:19为什么存在那 3500 万参数映射层的原因。它字面上是一个巨大的

00:04:26连接权重网格，它将那些 2304 个像素值相乘并拉伸成单行，

00:04:33完美匹配大语言模型的文本词元格式。它不做任何分析性思考，只是作为一个格式

00:04:40转换器，让数据可以顺利滑入实际视觉推理发生原生的主转换器。

00:04:48该模型在音频推理方面也做了类似的事情，但对于音频来说，它甚至更简单。

00:04:54他们摆脱音频编码器的方法是将原始的 16kHz 音频信号

00:05:01切成连续的 40 毫秒帧。每一小帧精确包含 640 个描述声波的

00:05:07浮点数。模型获取这 640 个浮点数，并通过类似的

00:05:15简单投影层，直接将它们映射到语言模型的输入空间中。对于转换器

00:05:21主干来说，一个 40 毫秒的音频块看起来与连续的文本词元流完全相同。因为声音

00:05:28已经是一个按时间顺序排列的序列，就像句子中的单词序列一样，大语言模型处理音频

00:05:35的方式与文本完全一样。这种深度原生集成让 120 亿参数模型能够处理实时转录、

00:05:42翻译和文本格式化，只需一次前向传递，而无需强制你将单独的语音

00:05:49网络加载到内存中。所以这个聪明的策略对于在自己的硬件上

00:05:56本地运行模型来说是一个巨大的胜利。通过剥离所有编码器的臃肿，DeepMind 成功地在

00:06:02极小的足迹中封装了令人难以置信的推理能力。看看基准测试，它接近他们庞大的

00:06:08260 亿参数模型的性能，但它能轻松装入拥有 16GB 显存或更多的

00:06:15标准笔记本电脑上。此外，谷歌还开箱即用地包含了原生多词元预测草稿模型，这意味着它

00:06:21一次预测多个词元以实现快速本地推理速度，而无需强制你压缩模型。

00:06:28所以这一切听起来很令人印象深刻。那么现在让我们测试一下，看看它在我本地 M2 MacBook Pro 上的表现如何。

00:06:34我之前的 OMLX 视频中一些人问我的机器实际上有多少显存？

00:06:41所以回答这个问题，我有 24GB 的显存。这就是我们今天使用的配置。

00:06:48我还得说这个 Edge Gallery 应用程序太不稳定了。例如，如果我尝试添加一张

00:06:53图片并问：请分析这张图片，它会立即失败并给我这个随机错误。这是在最新版本上。

00:07:01所以很遗憾，我们无法使用官方的 AI Edge Gallery 应用程序测试视觉编码器，但还有另一种方法可以测试它。

00:07:13好了。所以既然我无法可靠地使用 Google AI Edge Gallery 应用程序

00:07:20测试 Gemma 4 120 亿模型的图像处理，我决定在 OMLX 上测试它。

00:07:26我之前也做过关于 OMLX 的视频。它是一个令人难以置信的、专门用于

00:07:34在本地（特别是 Apple Silicon 上）运行 AI 模型的框架。正如你在这里看到的，我

00:07:42已经下载了这个模型的 8 位量化版本。所以现在我要转到聊天部分，

00:07:47让我们看看它实时进行图像推理的速度到底有多快。在这里我有一个测试文件夹，

00:07:54里面有两张图片。其中一张只是机场出发信息的截图。所以我们将使用这张图片

00:08:01并问：你在这张图片中看到了什么？请注意，我没有加速这个视频。

00:08:09这一切都是实时的。我希望你注意它在这样的图片上进行推理的速度有多快。

00:08:18它开始运行了，正在加载模型，正在生成，看那个。

00:08:24看看它能够以多快的速度解析这张图片并从中提取有价值的信息。

00:08:33我第一次在 OMLX 上看到这个时，真心被它的速度震撼到了。这绝对是疯狂的。

00:08:41我必须说，这是我测试过的本地图像推理表现最好的模型。我还想

00:08:50请你注意，我是在离线状态下运行这个模型的。我没有打开 Wi-Fi。

00:08:57所以现在让我们尝试另一个例子。这是一张电视剧《维京传奇》角色的模糊图片，

00:09:03展示了一些角色。所以再次，让我们打开这张图片并问同样的问题：你在这张图片中看到了什么？

00:09:10它正在生成。

00:09:21看，就是这样。

00:09:27我的意思是，这简直太疯狂了。速度太快了。我非常惊讶。

00:09:30所以，是的，我确实对这个新模型的图像处理性能印象非常、非常深刻。

00:09:37好吧，这就是 Gemma 4 120 亿参数编码器模型的大致情况。

00:09:43我曾非常沮丧，因为我无法在他们官方的 AI Edge Gallery 应用程序中充满信心地测试它。

00:09:50但正如我们所见，还有其他替代方案，甚至可能更好的方法可以在本地运行它。

00:09:56所以我确实认为这是一个非常棒的模型，它完全改变了未来运行本地 AI 模型的方式。

00:10:01Google DeepMind 证明了一个单一的语言主干已经足够聪明，

00:10:07可以原生处理视觉和声音。因此，这项新技术可能会为开发甚至

00:10:13更高效的多模态推理模型打开大门，这些模型可以轻松在边缘设备上运行。

00:10:19那么你对新的 Gemma 模型有什么看法？你试过了吗？你会使用它吗？在下面的评论区告诉我们。

00:10:26各位，如果你喜欢这类技术拆解，请通过砸下视频下方的点赞按钮告诉我。

00:10:32还有别忘了订阅我们的频道。我是来自 BetterStack 的 Andres，

00:10:37我们会在下一个视频中再见。

00:10:43感谢观看。

Key Takeaway

Gemma 4 120亿参数模型通过彻底移除传统的视觉和音频编码器，利用单层线性投影直接将原始数据映射至语言主干，从而在边缘设备上实现了高效且快速的原生多模态推理。

Highlights

Gemma 4 120亿参数模型采用完全无需编码器的架构，直接将原始图像和音频数据映射到语言模型。
图像输入通过线性投影层被切分为48x48像素小块，仅需3500万个参数即可完成格式转换，大幅降低了显存占用。
音频处理将16kHz音频信号切分为40毫秒帧，通过简单的投影层实现原生推理，无需加载额外的语音网络。
该模型在本地Apple Silicon设备（如配备24GB显存的M2 MacBook Pro）上展现出极高的推理速度。
取消沉重的视觉和音频编码器使得模型能在标准笔记本电脑上以极小的足迹实现高性能的多模态处理。

Timeline

传统多模态模型的架构缺陷

传统多模态模型依赖庞大的视觉和音频编码器来预处理数据。
多个独立网络同时运行会导致显存被过度占用并拖慢系统速度。

目前的多模态模型通常将语言模型与专门的视觉或语音编码器拼凑在一起。视觉编码器负责将原始像素转化为大语言模型可理解的格式，这一过程通常需要大量处理能力。在标准计算机上，同时运行多个独立网络会导致显存资源枯竭。

Gemma 4 无编码器架构的实现

视觉输入被重塑为48x48像素的网格，通过单层线性投影直接转换为文本格式。
音频输入被切分为40毫秒的帧，其数据结构与文本词元序列完全兼容。
仅保留3500万个参数用于格式映射，将处理重心完全留给大语言模型主干。

Gemma 4模型完全摒弃了传统的视觉编码器。通过线性投影技术，2304个像素值被直接映射为语言模型的输入向量。音频处理同样简化为将原始浮点数信号直接嵌入模型，从而在无需中间商的情况下，实现了高效的原生推理。

本地硬件性能测试

Gemma 4 12B模型性能接近260亿参数模型，但仅需约16GB显存。
模型支持原生多词元预测草稿，大幅提升了本地推理的响应速度。
在离线状态的M2 MacBook Pro上，模型展现出极快的实时图像解析能力。

通过在OMLX框架上测试，该模型在本地环境中无需Wi-Fi连接即可快速解析图像数据。实际操作中，模型在处理复杂视觉信息时表现出的速度远超传统架构模型，证明了在边缘计算设备上运行高性能多模态任务的可行性。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video