Qwen 3.5 小模型表现惊人！(0.8B 与 2B 边缘侧设备实测)

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00互联网现在都快炸锅了，而这次是因为 Qwen 3.5，

00:00:05特别是他们的小模型系列。阿里巴巴刚刚发布了

00:00:10Qwen 3.5 的原生多模态版本，参数规模小至 20 亿甚至 8 亿。

00:00:17它们在推理和视觉方面的表现甚至超过了一些规模是其四倍的模型。

00:00:22而且它们非常小巧，现在我们可以在完全不联网的情况下，

00:00:28在六年前的笔记本电脑和智能手机上本地运行。在本视频中，我们将专门探讨

00:00:34Qwen 3.5 的新型小系列模型，比如 8 亿和 20 亿参数版本。

00:00:40我们还将在 M2 MacBook Pro 以及 iPhone 14 Pro 上进行测试，看看它们究竟有多强大。

00:00:48这将会非常有趣，让我们开始吧。

00:00:55那么，为什么大家对这些新的 Qwen 3.5 模型如此着迷呢？毕竟小模型已经出现有一段时间了。

00:01:01我甚至在之前的视频中介绍过 IBM 的 Granite 4.0 nano 模型，

00:01:08它的模型规模仅为 3 亿参数。那么这些 Qwen 小模型有什么不同之处呢？

00:01:14嗯，这完全取决于所谓的“智能密度”。你看，长期以来的规律是，

00:01:20如果你想要一个具备视觉、推理和编程能力的模型，它必须体积巨大。但这些 Qwen 3.5 小模型

00:01:27证明了情况并非必须如此。它们成功地将大模型压缩成了

00:01:33更小巧的版本，且仍然支持统一的多模态架构。这意味着

00:01:39它们的 8 亿参数模型不仅能回答文本问题，还内置了视觉和编程能力。

00:01:46让我们快速看一下它们的基准测试，因为这非常有趣。在 MMLU 基准测试中，

00:01:51即衡量通用知识和推理能力的测试，20 亿参数模型的得分为 66.5，

00:01:57而 8 亿参数模型达到了 42.3。这听起来可能不算太出众，但请记住，

00:02:04作为对比，2023 年发布的原始 Llama 2 70 亿参数版本，

00:02:11在同一基准测试中的得分为 45.3。这充分展示了我们在缩小参数规模的同时，

00:02:17仍能保持相当不错的理解分数。但你看这个，它们真正的亮点是多模态性能。

00:02:23在 OCRBench 等专门的视觉测试中，

00:02:2920 亿参数模型得分为 85.4，而 8 亿参数模型达到了 79.1。

00:02:37这表明它们非常有能力处理阅读复杂文档和分析带文本的图像等任务。

00:02:43哦，而且它们都支持巨大的 262K 上下文窗口，因此你可以给它们喂整份 PDF，

00:02:51或者用它们来分析大型代码库。这确实令人印象深刻。现在，让我们看看

00:02:56它们的实际表现。既然 8 亿和 20 亿参数模型几乎可以在任何现代笔记本电脑上本地运行，

00:03:02我将在本地笔记本电脑上开启全飞行模式，在没有任何网络连接的情况下进行这些测试。

00:03:08对于第一个测试，我们将在 LM Studio 上启动一个本地服务器，

00:03:14并将其连接到 VS Code 中的 CLINE，看看这些微型模型是否真的能处理现实世界的编程任务。

00:03:21首先，你需要前往模型选项卡并下载 8 亿和 20 亿参数模型的 GGUF 版本。

00:03:28由于我们将使用这些模型执行编程任务，我们还需要大幅增加可用的上下文长度。

00:03:33设置好之后，我们就可以开始运行服务器了。

00:03:38现在让我们进入 CLINE。正如我提到的，我首先会关闭 Wi-Fi，

00:03:43以便我们可以完全离线地进行测试。然后在 CLINE 的 API 配置部分，

00:03:50我会确保指向我们自定义的 LM Studio 服务器 URL。同时，还要确保

00:03:56我们选择了 8 亿参数的模型。至于提示词，我会让模型

00:04:01为一个小型咖啡馆建立一个简单的公司网站。我还注意到，如果我们不指定任何特定的框架

00:04:07而让 Qwen 自己选择，它会选择安装 React，但这在我们的离线演示模式下是行不通的。

00:04:14所以我修改了提示词，特别要求使用 HTML、CSS 和 JavaScript，不使用任何外部库。

00:04:20让我们运行测试。模型大约花了一分钟时间完成这项任务。

00:04:25这就是最终结果。如你所见，网站非常单调，设计不太美观，

00:04:32文本颜色也很暗。我还注意到在 CSS 中，

00:04:37模型试图从 Unsplash 中硬编码特定的图片来匹配我们的主题。这是一个有趣的观察。

00:04:43如果我们暂时打开 Wi-Fi，我们可以看到其中一张图片确实加载出来了。

00:04:48看起来是一张医生拿着手机的照片。这有点莫名其妙。

00:04:54但其他图片的 URL 都是无效的。我还尝试再次提示模型去修复

00:05:00显示错误的文本并改进其他方面，但它无法稳定地完成。所以总的来说，

00:05:06我会说，虽然这个模型具备编程和工具调用能力，但我并不认为

00:05:12在现实场景中使用它是明智的选择，因为它的参数量实在太低了。

00:05:17现在让我们用同样的提示词来测试 20 亿参数模型，看看它的表现如何。

00:05:23这个模型其实让我很头疼，因为它经常会陷入循环，

00:05:28反复编写同一个部分。所以我不得不停止任务并重新开始。我不确定

00:05:34这是模型本身的问题，还是 LM Studio 运行服务器的方式，或者是 Cline

00:05:40处理提示词的方式有问题。但在这种特定配置下，这对我来说是个持续的困扰。

00:05:45我还注意到，8 亿参数模型是直接开始编写代码，

00:05:51而 20 亿参数版本更倾向于先构建计划，然后再进行实际的编码。

00:05:5720 亿参数模型大约花了三分钟完成任务，时间明显更长。

00:06:02让我们看看最终结果。正如我们所见，它已经有了一定进步，

00:06:08因为设计看起来整洁得多，并使用了棕色调主题，这更符合咖啡店的视觉形象。

00:06:14我还注意到，如果打开 Wi-Fi，它实际上加载了一些外部图标，

00:06:20这让整个网站看起来更漂亮了。

00:06:24而且这个版本确实尝试实现了我最初要求的购物车功能，

00:06:29我们现在有了一个漂亮的购物车侧边栏，虽然我在商品卡片上没看到“加入购物车”按钮。

00:06:35当我尝试通过提示词修复这些问题时，我再次遇到了同样的技术问题，

00:06:41模型陷入了死循环。所以我意识到这可能只是 LM Studio 与 Cline

00:06:46配合使用时的问题，或者类似的情况。但坦白说，显然

00:06:51没有人会认真考虑将这种小模型用于复杂且严肃的编程任务。

00:06:56我只是出于好奇进行这些测试，看看如此小的参数规模是否仍然

00:07:02能为给定的编程任务产生有意义的结果。现在让我们做些更令人兴奋的事。

00:07:07让我们尝试在 iPhone 14 Pro 上运行这些模型。为此，我使用 Swift

00:07:14和 MLX Swift 框架构建了一个原生的 iOS 应用。MLX 是苹果的开源库，

00:07:22它允许你直接在苹果芯片的统一内存架构上运行模型。通过利用 Metal GPU，

00:07:29我们可以在设备上通过硬件加速来运行这些 Qwen 模型。我也将

00:07:34在说明栏放入这个 Swift 项目的仓库链接，你可以下载并在自己的设备上编译它。

00:07:40应用一打开，它就会立即开始下载 8 亿参数模型。

00:07:46下载完成后，我们就可以使用了。但在输入任何提示词之前，

00:07:52让我开启 iPhone 的飞行模式。现在让我们从简单的“你好”开始。出于某种原因，

00:07:58它回答说它的名字叫 Alex。好吧，这很莫名其妙，但也行吧。但你有没有注意到

00:08:04响应流式传输的速度有多快？我真的被这个模型实时回答的速度震惊到了。

00:08:10现在让我们尝试著名的“洗车测试”，大多数模型通常都会答错。

00:08:17看啊，Qwen 3.5 竟然回答正确了。这确实令人印象深刻。

00:08:23现在这些模型最酷的地方在于它们还具备视觉能力。所以现在

00:08:29我要给它看一张香蕉的照片，看看它是否理解这是什么以及它的状态如何。

00:08:35它确实准确识别出这确实是一个香蕉，虽然它说这是个“狗香蕉” (dog banana)。

00:08:40我真的从未听过这个词。“狗香蕉”？Qwen 在这儿胡说八道些什么呢？

00:08:47好吧，不管怎样，它认为香蕉熟透了。它还警告我吃这个可能

00:08:52不安全，但这并不是真的。我今天早上才吃了那个香蕉，味道好极了。但不管怎样，

00:08:58我再次被它处理提示词并给出反馈的速度惊艳到了。

00:09:04现在让我们换一张图片。看看它是否能识别出这张照片里狗的品种。

00:09:09在这里我们可以看到它不太准确，因为它认为它看到了两只狗，

00:09:15但事实并非如此。而且它没有提到品种。所以让我们专门问它这是什么种类的狗。

00:09:20它认为这是一只金毛寻回犬，这显然离真相十万八千里。所以

00:09:27虽然有些回答并不完全准确，甚至有些回答非常搞笑，

00:09:34但我仍然对这种小模型能推理图像内容并能如此迅速地完成感到由衷的钦佩。

00:09:39最后我想测试一下这个模型的 OCR 能力，正如基准测试中所宣扬的那样。

00:09:45具体来说，我想看看这个模型是否能识别出这张图片中呈现的文本语言。

00:09:50给大家提供一点背景信息，图片中显示的语言是拉脱维亚语，这其实是我的母语，

00:09:55因为我原本就来自拉脱维亚。不幸的是，Qwen 没能通过这项测试，因为它说这是斯洛文尼亚语，

00:10:00但我们的语言甚至和斯洛文尼亚语一点都不像。

00:10:05而且我还觉得好笑的是，它竟然如此自信地将一个单词翻译成同一个单词，

00:10:11我甚至不确定那是不是个真实的单词。显然，在这个提示词回答中存在严重的幻觉。

00:10:19好了，现在让我们转向 20 亿参数模型。当你切换下拉菜单时，它会首先下载模型。

00:10:25下载完成后，我们现在可以在这个版本上运行相同的测试，看看是否有实质性的改进。

00:10:30让我们再次从简单的“你好”开始。好吧，至少这次回答的不是 Alex 了。

00:10:36这已经是一个进步了。现在让我们再次进行洗车测试。

00:10:42模型再次通过了洗车测试。这方面表现不错。

00:10:47现在继续测试香蕉图片。这一次，我们得到了更有意义的答案。

00:10:53它确实检测到这确实是一个香蕉。至于状态，

00:11:00它说香蕉已经完全成熟，可以食用了，这是正确的。现在再试试那张狗的照片。

00:11:06这次它说是博美犬。我的意思是，我觉得这些品种甚至一点都不像。

00:11:11所以很遗憾，即使是 20 亿参数模型在识别狗的品种方面也很糟糕。

00:11:18最后，让我们再次尝试带文本的图片，看看它是否能识别出语言。

00:11:22看啊！20 亿参数模型确实正确识别出这段文本是拉脱维亚语。

00:11:29这真的很酷。以上就是 Qwen 3.5 的小模型系列。我真心觉得，

00:11:36尽管存在一些不一致性，但这确实是我用过的最强大的微型模型。

00:11:42我们现在能在一个开源的原生多模态大模型上，在 iPhone 14 Pro 上离线运行，

00:11:49并在相对较快的推理速度下产生有意义的结果，这真的非常令人难忘。

00:11:55所以 Qwen 这次真的超越了自我，干得漂亮。不过，还有一个略显沉重的消息要分享。

00:12:01就在我完成这个视频的时候，有报道称阿里巴巴正在对 Qwen 团队进行重大重组。

00:12:07据报道，这些模型背后的核心领导人物和顶尖工程师已经离开，

00:12:13其中一些人去创建了自己的 AI 初创公司。这让社区开始怀疑 Qwen 的快速突破时代

00:12:18是否会放缓。这使得目前的这些模型变得更有意义，因为它们实际上可能是

00:12:24这个特定团队在未来一段时间内的最后一个主要版本。但你对这些小系列模型怎么看呢？

00:12:30你试过吗？你会使用它们吗？请在下方评论区告诉我们。

00:12:35各位，如果你喜欢这种技术解析，请点击视频下方的点赞按钮让我知道。

00:12:39还有，别忘了订阅我们的频道。我是来自 Better Stack 的 Andres，我们

00:12:45下期视频再见。

00:12:50拜拜。

Key Takeaway

Qwen 3.5 小模型系列通过极高的智能密度和原生多模态能力，实现了在移动端设备上高效、离线的 AI 推理体验，标志着边缘侧 AI 的重大进步。

Highlights

Qwen 3.5 发布了 0.8B 和 2B 参数规模的原生多模态小模型，具备视觉和编程能力。

这些模型展示了极高的“智能密度”，在 MMLU 和 OCRBench 基准测试中表现优异，甚至超越了部分更大规模的模型。

支持高达 262K 的长上下文窗口，能够处理大型代码库或长篇 PDF 文档。

模型可以在不联网的情况下，在旧款笔记本电脑和 iPhone 14 Pro 等移动设备上本地顺畅运行。

在实际测试中，2B 模型在网页设计和拉脱维亚语 OCR 识别方面明显优于 0.8B 版本。

尽管性能惊人，但小模型在复杂编程任务中仍存在循环输出和视觉识别幻觉（如误认犬种）的问题。

阿里巴巴 Qwen 团队近期传出重组及核心人员离职的消息，可能影响未来模型的开发节奏。

Timeline

Qwen 3.5 小模型系列简介

视频开篇介绍了阿里巴巴最新发布的 Qwen 3.5 原生多模态小模型，涵盖 8 亿和 20 亿两种参数规模。主讲人强调了这些模型具备极高的“智能密度”，能够将视觉、推理和编程能力集成在微小体积中。通过基准测试数据对比，2B 模型在 MMLU 上的表现甚至优于 2023 年发布的 Llama 2 70B 版本。此外，这些模型支持 262K 的超大上下文窗口，为本地处理复杂任务提供了基础。这一章节确立了 Qwen 3.5 在边缘侧 AI 领域的技术领先地位。

本地环境下的编程任务实测

主讲人在完全断网的飞行模式下，使用笔记本电脑上的 LM Studio 和 VS Code 插件 Cline 对模型进行编程测试。首先测试的 0.8B 模型虽然能生成 HTML 页面，但设计单调且在图片链接处理上出现逻辑错误。随后测试的 2B 模型虽然推理速度较慢且偶尔陷入死循环，但在网页视觉设计和功能实现（如购物车侧边栏）上展现出明显进步。测试证明小模型虽具备初步编程能力，但对于严肃、复杂的开发任务仍有力不从心之处。该部分展示了模型在资源受限环境下的实际产出质量。

iPhone 14 Pro 上的移动端实测

本节展示了利用苹果的 MLX Swift 框架在 iPhone 14 Pro 上原生运行 Qwen 模型的过程。在离线状态下，0.8B 模型的响应速度快得令人吃惊，且成功通过了逻辑推理中的“洗车测试”。在视觉测试环节，模型虽然识别出了香蕉，却创造了“狗香蕉”这一奇怪词汇，并给出了不准确的食用建议。在识别狗的品种时，0.8B 模型出现了明显的幻觉，将金毛寻回犬误认为其他物种。这一阶段的测试突显了移动端硬件加速对小模型推理速度的显著提升。

OCR 能力对比与 2B 模型表现

主讲人专门针对 OCR 文字识别能力进行了测试，特别是对拉脱维亚语这一冷门语言的识别。0.8B 模型在测试中彻底失败，错误地将拉脱维亚语识别为斯洛文尼亚语，并产生了严重的翻译幻觉。相比之下，2B 模型展现了卓越的理解力，不仅通过了洗车测试，还准确识别出了图片中的拉脱维亚文字。虽然 2B 模型在识别犬种方面依然表现不佳，但其在成熟度判断和多语言识别上的准确率显著高于 0.8B 版本。这部分分析了参数规模提升对解决特定复杂任务的关键作用。

总结与 Qwen 团队现状观察

视频最后对 Qwen 3.5 小模型系列给予了高度评价，认为它们是目前市场上最强大的边缘侧多模态模型之一。主讲人也分享了一个行业动态，即阿里巴巴 Qwen 团队正面临重组，核心工程师离职创业，这可能使该系列模型成为该团队近期的绝响。尽管未来存在不确定性，但目前这些模型在移动端离线运行的能力确实令人印象深刻。视频结尾鼓励观众留言分享使用体验，并对未来的 AI 发展保持关注。通过这段总结，观众不仅了解了产品性能，也洞察到了背后的行业变动。

Community Posts

Qwen 3.5 端侧部署实战指南：解决无限循环与硬件瓶颈

makedreamMar 11, 202610750

Write about this video