Transcript
00:00:00Google 刚刚发布了他们最新的 Gemma 4 120 亿参数模型,这简直是一个游戏规则改变者。
00:00:06不,我是说真的,这不是标题党。这个模型在构建方式上的确是一个游戏规则改变者。
00:00:13它与所有其他 AI 模型最大的不同在于,它完全是
00:00:18无需编码器的。那么,这意味着什么,它是如何工作的,为什么这意义重大呢?
00:00:24嗯,这些都是好问题,我们将在今天的视频中深入探讨。这会非常
00:00:29有趣。让我们开始吧。Gemma 4 120 亿参数模型拥有一种全新的架构,
00:00:39它完全打破了其他所有多模态模型的工作方式。多模态模型。哦,天哪,
00:00:46这真是个绕口令。为了理解为什么这如此重要,我们必须
00:00:51看看目前其他所有多模态模型是如何处理事物的。语言模型被构建为读取
00:00:57词元 (tokens),即本质上转化为数字的文本块。它们并不天然知道像素是什么,或者
00:01:05声波长什么样。所以我们通常会把不同的模型拼凑在一起。如果你给 AI 一张图片,一个庞大的
00:01:11视觉编码器会首先拦截它。它会消耗大量的处理能力将原始像素转化为
00:01:19大语言模型 (LLM) 真正能理解的语言。音频也是如此。一个单独的语音编码器必须
00:01:25先翻译声波。当 AI 的真正大脑接收到数据时,你已经在
00:01:32同时运行三个独立的网络了。在标准笔记本电脑上,这会完全占用你的显存 (VRAM) 并拖慢
00:01:38所有速度。但 Google DeepMind 看到了这个问题并思考,如果我们能省掉
00:01:44中间商会怎样?所以在 Gemma 4 120 亿模型中,他们彻底删除了沉重的视觉编码器。相反,
00:01:51当你给它输入一张图片时,模型会将其切成 48x48 像素的小块。与其将
00:01:58这些小块通过单独视觉网络中的几十层处理,原始像素会穿过一个
00:02:04单一精简的数学步骤,称为线性投影。这个线性投影只是一个庞大的数字网格,
00:02:11它接收 2304 个像素值,因为这对应于一个 48x48 像素的正方形,通过
00:02:19一个单一步骤进行相乘,并将它们拉伸成单行,完美匹配大语言模型的文本词元
00:02:26格式。所以它目前还没有分析图像中有什么,只是对原始数据进行了重新格式化,以便它能通过
00:02:32模型。如果你看看标准模型,它们的视觉编码器是非常庞大的。例如,
00:02:38这一个有 5.5 亿个参数。这是因为传统的编码器需要大量数据来重塑、
00:02:45映射和理解图像。它有几十个内部注意力层来计算像素之间的
00:02:50关系,试图在交给文本模型之前找出边缘在哪里、形状是什么、以及物体可能是什么。
00:02:57但 DeepMind 通过彻底删除所有这些沉重的脑力处理,将其缩小了。他们意识到
00:03:04主要的语言主干本身已经非常聪明,并且有足够的层来做实际的视觉推理。
00:03:10因此,通过移除所有那些思考层,他们只留下了 3500 万个参数,这字面上只是映射
00:03:17这些像素网格到文本格式所需的原始物理连接权重计数。所以这是一个适用于每张图片的静态单层映射。
00:03:24因为它不进行任何内部思考,所以几乎不占用任何处理能力,从而释放了显存,
00:03:30让主要大语言模型原生处理实际的智能。为了理解那个单一步骤是如何工作的,
00:03:37你必须看看大语言模型主干内部到底发生了什么。每个语言模型都有一个
00:03:44内部格式化规则,称为隐藏维度。可以把它想象成标准化的托盘尺寸。无论是
00:03:50单词“苹果”、一段代码还是一个标点符号,所有进入大语言模型的内容都必须转换
00:03:56成这种特定的巨大数字列表,因为它必须匹配矩阵的维度。而这个原始的
00:04:0448x48 像素块只是 2304 个单独颜色数字的网格。如果你尝试直接将该原始块
00:04:11输入到大语言模型中,模型会拒绝它,因为维度根本不匹配。这就是
00:04:19为什么存在那 3500 万参数映射层的原因。它字面上是一个巨大的
00:04:26连接权重网格,它将那些 2304 个像素值相乘并拉伸成单行,
00:04:33完美匹配大语言模型的文本词元格式。它不做任何分析性思考,只是作为一个格式
00:04:40转换器,让数据可以顺利滑入实际视觉推理发生原生的主转换器。
00:04:48该模型在音频推理方面也做了类似的事情,但对于音频来说,它甚至更简单。
00:04:54他们摆脱音频编码器的方法是将原始的 16kHz 音频信号
00:05:01切成连续的 40 毫秒帧。每一小帧精确包含 640 个描述声波的
00:05:07浮点数。模型获取这 640 个浮点数,并通过类似的
00:05:15简单投影层,直接将它们映射到语言模型的输入空间中。对于转换器
00:05:21主干来说,一个 40 毫秒的音频块看起来与连续的文本词元流完全相同。因为声音
00:05:28已经是一个按时间顺序排列的序列,就像句子中的单词序列一样,大语言模型处理音频
00:05:35的方式与文本完全一样。这种深度原生集成让 120 亿参数模型能够处理实时转录、
00:05:42翻译和文本格式化,只需一次前向传递,而无需强制你将单独的语音
00:05:49网络加载到内存中。所以这个聪明的策略对于在自己的硬件上
00:05:56本地运行模型来说是一个巨大的胜利。通过剥离所有编码器的臃肿,DeepMind 成功地在
00:06:02极小的足迹中封装了令人难以置信的推理能力。看看基准测试,它接近他们庞大的
00:06:08260 亿参数模型的性能,但它能轻松装入拥有 16GB 显存或更多的
00:06:15标准笔记本电脑上。此外,谷歌还开箱即用地包含了原生多词元预测草稿模型,这意味着它
00:06:21一次预测多个词元以实现快速本地推理速度,而无需强制你压缩模型。
00:06:28所以这一切听起来很令人印象深刻。那么现在让我们测试一下,看看它在我本地 M2 MacBook Pro 上的表现如何。
00:06:34我之前的 OMLX 视频中一些人问我的机器实际上有多少显存?
00:06:41所以回答这个问题,我有 24GB 的显存。这就是我们今天使用的配置。
00:06:48我还得说这个 Edge Gallery 应用程序太不稳定了。例如,如果我尝试添加一张
00:06:53图片并问:请分析这张图片,它会立即失败并给我这个随机错误。这是在最新版本上。
00:07:01所以很遗憾,我们无法使用官方的 AI Edge Gallery 应用程序测试视觉编码器,但还有另一种方法可以测试它。
00:07:13好了。所以既然我无法可靠地使用 Google AI Edge Gallery 应用程序
00:07:20测试 Gemma 4 120 亿模型的图像处理,我决定在 OMLX 上测试它。
00:07:26我之前也做过关于 OMLX 的视频。它是一个令人难以置信的、专门用于
00:07:34在本地(特别是 Apple Silicon 上)运行 AI 模型的框架。正如你在这里看到的,我
00:07:42已经下载了这个模型的 8 位量化版本。所以现在我要转到聊天部分,
00:07:47让我们看看它实时进行图像推理的速度到底有多快。在这里我有一个测试文件夹,
00:07:54里面有两张图片。其中一张只是机场出发信息的截图。所以我们将使用这张图片
00:08:01并问:你在这张图片中看到了什么?请注意,我没有加速这个视频。
00:08:09这一切都是实时的。我希望你注意它在这样的图片上进行推理的速度有多快。
00:08:18它开始运行了,正在加载模型,正在生成,看那个。
00:08:24看看它能够以多快的速度解析这张图片并从中提取有价值的信息。
00:08:33我第一次在 OMLX 上看到这个时,真心被它的速度震撼到了。这绝对是疯狂的。
00:08:41我必须说,这是我测试过的本地图像推理表现最好的模型。我还想
00:08:50请你注意,我是在离线状态下运行这个模型的。我没有打开 Wi-Fi。
00:08:57所以现在让我们尝试另一个例子。这是一张电视剧《维京传奇》角色的模糊图片,
00:09:03展示了一些角色。所以再次,让我们打开这张图片并问同样的问题:你在这张图片中看到了什么?
00:09:10它正在生成。
00:09:21看,就是这样。
00:09:27我的意思是,这简直太疯狂了。速度太快了。我非常惊讶。
00:09:30所以,是的,我确实对这个新模型的图像处理性能印象非常、非常深刻。
00:09:37好吧,这就是 Gemma 4 120 亿参数编码器模型的大致情况。
00:09:43我曾非常沮丧,因为我无法在他们官方的 AI Edge Gallery 应用程序中充满信心地测试它。
00:09:50但正如我们所见,还有其他替代方案,甚至可能更好的方法可以在本地运行它。
00:09:56所以我确实认为这是一个非常棒的模型,它完全改变了未来运行本地 AI 模型的方式。
00:10:01Google DeepMind 证明了一个单一的语言主干已经足够聪明,
00:10:07可以原生处理视觉和声音。因此,这项新技术可能会为开发甚至
00:10:13更高效的多模态推理模型打开大门,这些模型可以轻松在边缘设备上运行。
00:10:19那么你对新的 Gemma 模型有什么看法?你试过了吗?你会使用它吗?在下面的评论区告诉我们。
00:10:26各位,如果你喜欢这类技术拆解,请通过砸下视频下方的点赞按钮告诉我。
00:10:32还有别忘了订阅我们的频道。我是来自 BetterStack 的 Andres,
00:10:37我们会在下一个视频中再见。
00:10:43感谢观看。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video