谷歌刚刚发布了终极边缘 AI 模型？(Gemma 4)

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00上周，Google 做了一件出人意料的事。

00:00:02他们发布了一款采用 Apache 2.0 许可的真正开源模型。

00:00:08它叫 Gemma 4，拥有专门的边缘计算版本，参数量小至 23 亿，

00:00:14旨在完全离线运行在 iPhone、Android 旗舰机

00:00:21甚至是树莓派等设备上。

00:00:23看来构建终极小模型的竞争正愈演愈烈。

00:00:28就在几周前，我对 QWAN 3.5 进行了一些测试，看它如何推高

00:00:33本地 AI 的极限，但现在 Google 承诺提供更高的智能密度。

00:00:39所以在这段视频中，我们将对 Gemma 4 进行类似的测试，看看它是否

00:00:44真的是目前市面上最好的小模型。

00:00:47这将会非常有趣，让我们开始吧。

00:00:53那么，这些全新的 Gemma 4 模型到底有什么独特之处呢？

00:00:57其实真正的技术变革在于 Google 所谓的“逐层嵌入”。

00:01:03在传统的 Transformer 中，Token 在开始时获得一个嵌入，

00:01:08并且必须带着所有的含义穿过每一层。

00:01:11但在 Gemma 4 中，每一层都有自己的一套嵌入，允许模型

00:01:16在最需要的地方引入新的信息。

00:01:19这就是为什么你在 E2B 和 E4B 模型名称中能看到这个“E”。

00:01:24它代表“有效参数”。

00:01:27虽然该模型表现出 50 亿参数模型的推理深度，但它在推理过程中

00:01:32仅使用约 23 亿个激活参数。

00:01:36这带来了更高的智能密度，使其能够在占用不到 1.5 GB RAM 的情况下

00:01:42处理复杂的逻辑。

00:01:46除了文本性能，Gemma 4 还是原生多模态模型。

00:01:50这意味着视觉、文本甚至音频都在同一个统一架构内处理，

00:01:56而不是作为单独的模块强行拼凑在一起。

00:01:59这种架构启用了一种新的“思考模式”，使用内部推理链

00:02:05在给出答案前验证自身的逻辑。

00:02:08这专门设计用于防止小模型中经常出现的

00:02:13死循环和逻辑错误。

00:02:15它还配备了 128K 的上下文窗口，并支持 140 多种语言，

00:02:22这应使其在复杂 OCR 或本地语言识别等任务中表现得更出色。

00:02:29为了展示这些能力，Google 发布了一些令人大开眼界的基准测试。

00:02:34在内部测试中，E4B 模型在 AIME 2026 数学基准测试中

00:02:43获得了 42.5% 的分数，是上一代大型模型分数的两倍多。

00:02:49他们还在 T2 平台上展示了该模型的智能体潜力，

00:02:54其工具使用准确度出现了巨大飞跃。

00:02:57他们还通过一个名为“智能体技能”的功能展示了模型的潜力。

00:03:02该模型不再仅仅生成静态文本，而是被展示为使用原生函数调用

00:03:07来处理多步骤工作流，如查询维基百科实时数据

00:03:13或构建一个端到端的动物叫声微组件。

00:03:15听起来都很厉害，但让我们亲自动手试试，看它表现如何。

00:03:20在我之前的 QWAN 3.5 视频中，我使用 LMStudio 和 CLINE

00:03:25在无网环境下本地运行这些小模型进行了测试。

00:03:28我将使用同样的配置来测试 GEMMA 4。

00:03:32首先，我们需要在 LMStudio 上下载模型，然后增加可用的上下文窗口

00:03:37并启动服务器。

00:03:39接着进入 CLINE 并关联我们的本地 LMStudio 服务器，选择 E2B 模型，

00:03:45断开网络连接，开始测试。

00:03:49上次我们看到 QWAN 3.5 在生成一个简单的咖啡馆网站方面做得相当不错，

00:03:55它使用了 HTML、CSS 和 JavaScript 以及两个最小的参数模型。

00:04:00让我们复用同样的提示词，看看 GEMMA 4 在这项编程任务中是否同样优秀。

00:04:05E2B 模型大约花了 1.5 分钟完成这项任务。

00:04:10对于一个拥有 23 亿激活参数的模型来说，

00:04:16相比仅使用 8 亿参数的 QWAN 的输出结果，老实说表现平平。

00:04:22最让人烦心的是 GEMMA 在 HTML 文件和

00:04:28CSS 文件的末尾都附加了任务列表，因此在打开页面前

00:04:33我不得不手动从这两个文件中将其删除。

00:04:34它还声称编写了一个 JavaScript 文件，但实际上最终输出中

00:04:40并没有生成 JS 文件，所以 E2B 的测试结果有点令人失望。

00:04:45但在切换到 E4B 模型版本后，情况确实有了很大改善。

00:04:50这个版本大约花了 3.5 分钟完成任务，但最终结果

00:04:55明显好得多。

00:04:56也许设计方面依然很平淡，但这个版本实际上

00:05:00拥有可用的购物车功能，这是之前的 QWAN 和 GEMMA 测试中

00:05:06都未能成功实现的。

00:05:08所以 E4B 版本已经是相对于 E2B 的一大进步，但显然

00:05:15没有人会认真考虑用这么小的模型来处理复杂或严肃的编程。

00:05:20我进行这些测试纯粹是出于好奇，想看看如此小的参数量

00:05:25是否仍能针对给定的编程任务产生有意义的结果。

00:05:29好了，现在让我们看看 GEMMA 4 在 iPhone 等边缘设备上的表现。

00:05:34在我之前的 QWAN 3.5 视频中，我构建了一个自定义 iOS 应用，

00:05:40能够利用 Swift 的 MLX 框架在原生 Metal GPU 上运行模型。

00:05:44虽然 GEMMA 4 是开源的，但遗憾的是目前还没有可用的 MLX 绑定，

00:05:49能支持在具有多模态能力的 iOS 上运行该模型。

00:05:56Google 自己是在其 AI Edge Gallery 应用上运行 GEMMA 4，

00:06:01使用的是他们自己的推理框架 Lite RTLM，遗憾的是该框架

00:06:07目前也不支持 iOS 绑定。

00:06:08所以要在 iPhone 上尝试，目前最好的选择是使用他们的 Edge Gallery 应用。

00:06:13我们将用他们自己的应用进行测试，看看表现如何。

00:06:18让我们进入 AI 聊天板块。

00:06:20在这里，系统会提示我们下载 E2B 版本的 GEMMA 4。

00:06:25你也可以选择下载 E4B 版本，但出于某种原因应用显示

00:06:29我的空间不足无法下载，我很确定这不是事实，

00:06:34所以这可能是应用的一个 Bug。

00:06:36但不管怎样，模型下载好后，我们终于可以开始使用了。

00:06:41先从打个简单的“你好”开始。

00:06:43哇，看到响应有多快了吗？

00:06:46比 QWAN 3.5 快得多。

00:06:48也许这就是他们使用的 Lite RTLM 框架的魔力。

00:06:53现在让我们试试著名的“洗车测试”，看 GEMMA 能否答对。

00:06:57哇，它给了我一个非常长的回答。

00:07:00在回答的最后，我们看到最终建议是“开车”，这是正确的，

00:07:06但我必须考虑到它考虑的是便利性和舒适度，

00:07:10而不是单纯的逻辑事实。

00:07:13所以，怎么说呢，它算是通过了测试，但同时又有点勉强。

00:07:18好了，现在跳转到“图像问答”部分，看看 GEMMA

00:07:24能否识别出这张图片里的狗。

00:07:26它确实识别出了那是一只狗，并提供了一些关于图片的细节。

00:07:31这挺酷的。

00:07:32但如果我问它：“这只狗是什么品种？”

00:07:35它回答说是边境牧羊犬，这不对。

00:07:39它其实是一只柯基。

00:07:40但我得说，对于一个只有 20 多亿激活参数的模型，

00:07:45这种表现尽管如此也已经很不错了。

00:07:46最后，让我们尝试一下 OCR 测试。

00:07:48如果你看过我之前 QWAN 3.5 的视频，你会记得我用一张

00:07:54包含拉脱维亚语文字的图片测试了它，那也是我的母语。

00:07:59GEMMA 标榜自己能够理解多达 140 种语言。

00:08:05所以我假设它应该能轻松通过这项测试。

00:08:08是的，没错，它确实识别出了那是拉脱维亚语。

00:08:13而且令我惊讶的是，大部分文字其实都非常准确。

00:08:16除了一些小例外，我发现有些词根本不存在，

00:08:22而且有些语法结构非常古怪。

00:08:24但它依然令人印象深刻。

00:08:26所以我给这项测试打个及格。

00:08:28那么这其实引出了一个问题：我能用拉脱维亚语跟它聊天吗？

00:08:32接下来我就试试看。

00:08:33我看到回复确实是拉脱维亚语。

00:08:36但再次强调，它的语法结构非常奇怪。

00:08:39根本没有人会那样说话。

00:08:41不过考虑到拉脱维亚语是一种非常小众的语言，

00:08:44这么小的模型能掌握这些知识已经很了不起了。

00:08:48顺便，我要问它现任美国总统是谁，

00:08:53看看 GEMMA 4 的知识截止日期。

00:08:56它回答说是乔·拜登。

00:08:58如果我直接问：“你的知识截止日期是什么时候？”

00:09:02它会告诉我是在 2025 年 1 月，这能对得上。

00:09:06以上就是全部内容了。

00:09:07这就是 GEMMA 4，Google 最新的开源模型。

00:09:10说实话，这个模型看起来确实不错。

00:09:14它实现了广告中宣称的功能，虽然在网页设计上缺乏创意。

00:09:19但除此之外，正如我们刚才看到的，这些小模型

00:09:24完全有能力成功完成我给它的所有任务。

00:09:27遗憾的是我们还没有这个模型的 MLX 绑定，因为我真的很想

00:09:32在自定义 iOS 应用上本地使用 GEMMA 4。

00:09:36但我相信 Google 很快就会把这个版本推向公众。

00:09:41与此同时，我正密切关注 SwiftLM 等社区项目，

00:09:46他们已经在为这些模型开发非官方的原生绑定。

00:09:50以上就是我对这个模型的一些看法。

00:09:52你觉得 GEMMA 4 怎么样？

00:09:54你试过了吗？

00:09:55你会使用它吗？

00:09:56请在下方的评论区告诉我们。

00:09:59朋友们，如果你喜欢这类技术解析，请记得

00:10:03猛击视频下方的点赞按钮让我知道。

00:10:05也别忘了订阅我们的频道。

00:10:07我是来自 BetterStack 的 Andres，我们下期视频再见。

Key Takeaway

Gemma 4 通过逐层嵌入技术在 23 亿激活参数规模下实现了高智能密度，使其能够在不到 1.5 GB 内存的边缘设备上完成复杂的离线多模态推理与逻辑验证。

Highlights

Gemma 4 采用 Apache 2.0 许可协议，是谷歌发布的完全开源边缘计算模型。

该模型通过逐层嵌入技术，在仅使用 23 亿激活参数的情况下实现了 50 亿参数级别的推理深度。

Gemma 4 能够在占用不足 1.5 GB RAM 的硬件环境下离线处理复杂的逻辑任务。

E4B 模型在 AIME 2026 数学基准测试中获得 42.5% 的分数，性能达到前代大型模型的两倍以上。

原生多模态架构将视觉、文本和音频处理集成在统一框架内，并引入了验证逻辑的思考模式。

模型具备 128K 上下文窗口并支持 140 多种语言，知识截止日期更新至 2025 年 1 月。

Timeline

Gemma 4 核心技术与架构创新

逐层嵌入技术允许每一层模型在推理过程中引入新的信息。
E2B 和 E4B 模型名称中的 E 代表有效参数，旨在提高单位参数的智能密度。
思考模式通过内部推理链在输出答案前自动验证逻辑正确性。
统一的多模态架构直接在核心层处理视觉、音频和文本输入。

传统 Transformer 架构仅在起始阶段进行一次 Token 嵌入，而 Gemma 4 的每一层都拥有一套独立的嵌入系统。这种设计使 23 亿激活参数的模型能够展现出 50 亿参数的推理水平，显著降低了运行所需的硬件门槛。为了解决小模型易出现的死循环问题，系统集成了逻辑验证机制。此外，128K 的长上下文和多语言支持增强了其在 OCR 和本地识别任务中的实用性。

本地编程能力测试与性能对比

E2B 模型在生成咖啡馆网站任务中耗时 1.5 分钟，但未能生成 JavaScript 文件。
E4B 模型在同一编程任务中耗时 3.5 分钟，并成功实现了购物车功能。
模型在生成代码的同时会在文件末尾附带任务列表，需手动清理。

通过 LMStudio 和 CLINE 在断网环境下进行的测试显示，极小规模的参数模型已具备基础的代码构建能力。E2B 版本的表现相对平庸，不仅缺失了关键的脚本文件，还产生了多余的文本内容。相比之下，参数稍大的 E4B 版本在设计感上虽无显著提升，但在功能完整性上表现更优。这种对比表明，目前的边缘模型虽能处理简单任务，但尚不适合严肃的软件开发工作。

移动端边缘设备实测表现

Lite RTLM 推理框架使模型在移动设备上的响应速度大幅超过 QWAN 3.5。
多模态视觉测试中模型能识别狗的图像，但对具体品种的识别存在偏差。
多语言 OCR 测试确认了其对拉脱维亚语等小众语言的理解力。

在 iPhone 上通过谷歌 AI Edge Gallery 应用进行的测试展示了极高的交互速度。洗车逻辑测试证明模型在回答时倾向于综合考虑便利性而非纯粹的逻辑事实。在语言处理方面，尽管语法结构有时显得生硬且不自然，但模型准确识别了拉脱维亚语并完成了大部分文本的提取。知识截止日期的测试确认其信息库已涵盖 2025 年 1 月前的事件，包括现任政府首脑等信息。

开源生态现状与未来展望

官方目前尚未发布支持 iOS 原生 Metal GPU 加速的 MLX 绑定。
SwiftLM 等社区项目正在开发非官方的原生模型绑定工具。
Gemma 4 在保持开源属性的同时基本兑现了高性能边缘 AI 的承诺。

尽管谷歌官方目前主要依赖自家的 Lite RTLM 框架，导致在 iOS 的自定义应用集成上存在限制，但其开源性质吸引了大量社区开发者进行非官方适配。模型在网页设计等创意任务上仍显不足，但在逻辑推理、多语言支持和离线运行效率上已经达到了边缘设备应用的标准。随着更多绑定工具的完善，该模型有望在移动端离线应用中发挥核心作用。

Community Posts

通过 Gemma 4 本地服务器省下每月 200 美元的 API 开支

makedream10天前2810

Write about this video