00:00:00大多数人认为运行强大的视觉语言模型
00:00:05需要庞大的 GPU 或云服务的付费订阅。
00:00:08然而,Liquid AI 最近发布了其最新 LFM 模型的演示,
00:00:14它完全在网页浏览器中运行。
00:00:16利用 WebGPU 和 ONNX Runtime,该模型可以在本地处理图像和视频。
00:00:23这意味着您的数据永远不会离开电脑,一旦模型在设备上缓存,
00:00:28您甚至不需要互联网连接。
00:00:30我真心觉得这超级酷,所以在这段视频中,我们将看看
00:00:34这个模型,看看它的表现,做个小测试,并弄清楚它是否真的像
00:00:40宣传的那样强大。
00:00:41这会很有趣,让我们开始吧。
00:00:48LFM 代表 Liquid Foundation Model(液体基础模型)。
00:00:52Liquid AI 不仅仅依赖 Transformer 架构,而是采用了混合设计。
00:00:58它将卷积块与所谓的“分组查询注意力”(GQA)相结合。
00:01:03这个 16 亿参数的模型是专门为视觉和语言调优的。
00:01:09它在海量的 28 万亿 token 数据集上进行训练,这让它能够
00:01:15实现超越其体量的性能表现。
00:01:16在基准测试中,它经常能与两倍于其规模的模型性能持平,
00:01:21同时在笔记本电脑和手机等边缘设备上的运行速度明显更快。
00:01:26现在你可能会好奇,他们是如何将这种级别的智能
00:01:31压缩到不到 1GB 内存的封装包中的?
00:01:34不同于其他使用剪枝或压缩版大型云端模型的微型模型,
00:01:40Liquid AI 采用了一种名为“设计即高效”的理念。
00:01:44他们名字中的“Liquid”指的是其“线性输入变化架构”(LIV)。
00:01:51传统 Transformer 的内存会随着对话内容的增加而变大,
00:01:56而 Liquid 模型则使用了自适应卷积块的混合系统。
00:02:01这些模块本质上就像智能过滤器,只处理最相关的局部
00:02:07信息,在数据流经模型时对其进行有效压缩。
00:02:11这使得 LFM 能够维持其庞大的 32,000 token 上下文窗口,而不会出现
00:02:18传统 Transformer 中常见的指数级减速或内存激增。
00:02:23还有一些特定的技术细节使该模型脱颖而出。
00:02:28首先,它具有原生分辨率。
00:02:30它可以处理高达 512x512 像素的图像,而无需变形或放大。
00:02:37对于更大的图像,它采用切片策略,将图像拆分为多个区块,
00:02:42同时保留一张缩略图以维持全局上下文。
00:02:46其次,它的效率非常高。
00:02:47得益于混合架构,它的内存占用非常低,通常
00:02:52运行内存不足 1GB。
00:02:54但我认为最令人印象深刻的是 WebGPU 的集成。
00:02:58Hugging Face Space 的演示展示了如何将其用于实时摄像头字幕生成。
00:03:04那么让我们亲自尝试一下,看看它的表现如何。
00:03:08好了,让我们看看这东西到底是怎么运作的。
00:03:11我想我们应该选择想要加载的视觉模型。
00:03:15让我们试试性能最强的 FP16 版本。
00:03:18把它加载进来。
00:03:20加载这个模型需要相当长的时间来下载。
00:03:23这些内容都是下载到你的本地设备上的。
00:03:25所以下次你打开应用时,一切都会被缓存好。
00:03:28好的。
00:03:29现在我们已经下载好了 FP16 量化模型。
00:03:34让我们点击开始,看看效果。
00:03:36噢,看那里。
00:03:38“一个留着胡子、穿着连帽衫的男人正看着镜头。”
00:03:40好的,它能检测出视频中出现的物体,
00:03:45这非常酷。
00:03:46我们可以做类似物体检测的操作。
00:03:50让我们看看它能不能识别出手机。
00:03:51没错,它识别出我正拿着一部装有黑色外壳的 iPhone。
00:03:57那真的很酷。
00:03:58看看这个。
00:04:00它真的是在实时运行。
00:04:02我被惊艳到了。
00:04:04如果我这样做呢?
00:04:05它能识别出“手里拿着和平手势”吗?
00:04:10这真的很棒。
00:04:12如果我竖起大拇指呢?
00:04:13是的,识别到了竖起大拇指。
00:04:15模型确实能实时检测到我做的一切。
00:04:18看看它能不能检测到我的麦克风。
00:04:21噢,它甚至检测到了上面写着“Rode”标志。
00:04:24哇,它甚至能读取外壳上的文字,这真的非常非常酷。
00:04:29我们能实时获得这些字幕,这一事实充分说明了
00:04:33这个模型非常强大。
00:04:35让我试着关掉互联网连接,看看它是否还能工作。
00:04:40现在我已经关掉了 Wi-Fi,是的,我们依然能得到同样的输入,
00:04:50这太棒了。
00:04:51这就是全部内容了,各位。
00:04:52简而言之,这就是最新的 Liquid Foundation Model。
00:04:56我认为这些 AI 模型在量化以及
00:05:01在笔记本电脑等边缘设备上运行的能力演进得如此之快,令人赞叹。
00:05:05我想就在两年前,我们还不敢相信这能成为现实,但现在
00:05:10在 WebGPU 上运行这些模型正变得越来越普遍。
00:05:14那么你对 Liquid Foundation Model 有什么看法?
00:05:16你试过了吗?
00:05:17你会使用它吗?
00:05:18使用这类模型的最佳场景是什么?
00:05:21请在下方的评论区告诉我们你的想法。
00:05:23朋友们,如果你喜欢这类技术解析,请务必
00:05:27点赞并订阅我们的频道。
00:05:32我是来自 Better Stack 的 Andris,我们下个视频再见。