最强大的确定性 AI 工具:让输出结果绝对可靠 (Interfaze)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00你知道使用AI模型时什么最让我抓狂吗?
00:00:04幻觉和非确定性的输出。
00:00:07但现在有个叫Interphase的新模型,旨在解决这些问题。
00:00:12Interphase刚刚发布了他们的测试版模型供抢先体验,
00:00:16我试了一下,觉得真的很酷。
00:00:18所以今天的视频,我们要来看看Interphase,
00:00:21看看它如何工作,我还会用它做一些有趣的测试,
00:00:25包括尝试解读五角大楼最近解密的UFO文件,
00:00:31看看我们能否一起解开其中的一些谜团。
00:00:36这会很有趣,让我们开始吧。
00:00:42那么Interphase究竟是什么,它和其他模型有何不同?
00:00:47嗯,我们使用的大多数模型,比如GPT-4或Gemini,都是单体Transformer架构。
00:00:53它们是通用模型,当你给它们一个文档时,
00:00:57整个庞大的模型都会尝试猜测下一个词。
00:01:00Interphase采用了完全不同的方法。
00:01:03它使用混合架构。
00:01:05在Interphase内部,有一堆特定任务的编码器。
00:01:10把它们想象成迷你专家。
00:01:12有一个专门的卷积神经网络,
00:01:15专门用于视觉和OCR,
00:01:18以及一个用于音频和语音的深度神经网络栈。
00:01:23所以,与其要求一个巨大的大脑去读取图像,
00:01:26Interphase会先把图像交给CNN,
00:01:30然后由CNN完成繁重的工作。
00:01:32它识别形状、文本块和坐标,
00:01:35然后将这些结构化数据交给Transformer编排器,
00:01:40将其转化为人类语言。
00:01:42Interphase团队实际上发布了一个名为SOB的新基准,
00:01:46即结构化输出基准。
00:01:48它的工作方式是,通常我们衡量模型是否能输出有效的JSON,
00:01:53但SOB衡量的是JSON内部的内容是否真正正确。
00:01:58在他们的测试中,Interphase Beta在确定性任务上表现优于Gemini 3 Flash
00:02:03和GPT 5.4 Mini,
00:02:07比如从复杂的图表中提取数据或多语言转录。
00:02:12这真是一个巨大的解脱,因为我知道不止我一个人会因为模型
00:02:17忘记格式而感到沮丧。
00:02:19你要求输出JSON,十有八九是好的,
00:02:23但总有那么一次,它决定加上一句有用的介绍性句子,
00:02:28或者直接跳过闭括号,
00:02:31这种不一致会破坏生产流水线。
00:02:35Interphase的处理方式不同,因为结构化输出不是事后才考虑的。
00:02:39它是从一开始就构建在模型查看和处理任务的方式中的。
00:02:45而且因为Interphase使用了那些任务特定的编码器,
00:02:48它在网页抓取方面也很擅长。
00:02:51它把网页视为一张结构化地图,
00:02:53能够从混乱中提取干净的数据,而不会迷失在样板代码中。
00:02:59还有一点非常突出的是可调整的护栏。
00:03:05通常安全过滤器就像一个黑匣子。
00:03:08它们要么开启,要么关闭,
00:03:09而且它们经常过度拒绝完全合法的请求。
00:03:13但Interphase让你能够真正调节这些。
00:03:16你可以根据你的具体使用场景调整敏感度。
00:03:20所以,如果你正在分析一张图片,模型看到了胸部或其他东西,
00:03:24它不会直接关闭并给你一个拒绝响应。
00:03:28你可以配置它在保持有帮助的同时,仍然遵循你的首选安全要求。
00:03:33所有这些听起来都很棒,
00:03:35但让我们来实际测试一下,看看它的表现如何。
00:03:38另一个很酷的事情是你可以先用免费账户,
00:03:41你会得到20美元的免费额度。
00:03:44他们的定价是每100万个token 1.50美元。
00:03:49所以这很充足。
00:03:51其实相当便宜。
00:03:52所以你可以在免费层级上尝试很多实验。
00:03:56我在Interphase仪表板中注意到的第一件很酷的事情是,我们这里有这个系统提示构建器,
00:04:02我们可以选择针对特定任务我们想要什么样的参数。
00:04:07然后它会给出一个代码片段输出,我们可以直接复制粘贴。
00:04:11在这里我们实际上可以尝试其中一个护栏。
00:04:13让我们看看如果我们激活所有护栏会怎样。
00:04:16它有这个示例提示。
00:04:18告诉我怎么制作炸弹。
00:04:21几秒钟后,是的,我们看到这是一个不安全的请求。
00:04:24所以护栏工作得非常完美。
00:04:27另一个很酷的事情是我们可以调整温度、
00:04:29top P和最大完成token,以满足你的任务需求。
00:04:35现在让我们尝试一个简单的网页搜索。
00:04:37对于这个例子,我只是要搜索网上提到NVIDIA最新芯片的最新文章。
00:04:45让我们看看它的表现如何。
00:04:47正如你所看到的,它给了我这个带有标题的结构化JSON输出。
00:04:53如果我们点击这个按钮,它会展开输出。
00:04:57我们可以看到它都非常结构化。
00:04:59但如果这太详细了,我们可以直接点回样本输出。
00:05:04这给了我们准确的要求,比如这个任务的前三个标题。
00:05:10再一次,我喜欢一切都以JSON格式输出。
00:05:14所以你总是知道你会得到什么。
00:05:16不用去猜测那些非确定性的输出会给你什么。
00:05:21我认为这对开发人员特别有帮助,
00:05:24因为很多时候我们知道我们想要得到的格式,仅此而已。
00:05:29而我们只想坚持那种格式。
00:05:31好了,现在让我们尝试一些非常、非常有趣的东西。
00:05:34Interphase声称他们有很高的OCR分数。
00:05:38所以我打算把它放到终极挑战中。
00:05:41正如你所知,五角大楼最近解密了UFO文件。
00:05:47我去看了他们的页面。
00:05:49正如你所见,有些页面,有些文档,你看那个。
00:05:53哇,它们太难读了。
00:05:55连我自己都觉得,你看这些黑底白字。
00:05:59没有OCR我根本读不了。
00:06:02所以看看它是否真的能解析这些页面会很有趣。
00:06:07然后我会选择另一个例子。
00:06:10这张上面有个手写的笔记。
00:06:12那将是我们第二个例子。
00:06:15好的,现在让我们让它读取这份文档并提取其中出现的所有文本。
00:06:22好的,我看到它返回了一种JSON。
00:06:25如果我展开它,还有更多数据。
00:06:29如果我们深挖,你可以看到实际上有关于所有边界框以及它们在页面中具体位置的信息。
00:06:38但这正是他们这里的整个仪表板系统所缺失的一点。
00:06:43没有办法真正预览它。
00:06:46所以我写了一个简单的HTML页面,让我可以预览这些文档,并复制Interface给我的展开后的JSON输出。
00:06:56然后我可以把它输入到这个网页中。
00:06:59它会在视觉上显示所有带有文本和所有内容的文本框。
00:07:03所以我会添加一个repo链接,这样如果你想尝试,也可以下载这个项目。
00:07:09好的,这就是这个应用。
00:07:10在这里我们可以看到文本框,每个文本框还有一个置信度分数。
00:07:17如果置信度分数高于70%,它会显示为绿色。
00:07:20如果不是,它会是黄色。
00:07:23如果它非常低,那么它会是红色。
00:07:26当然,第1部分的UFO置信度很高,因为很容易读。
00:07:32但现在让我们看看这一页。
00:07:34哇。
00:07:34即使是Interphase在破译这一页上的所有内容时也很困难。
00:07:40但让我们看看它。
00:07:41让我们看其中一个绿色框。
00:07:44不是。
00:07:45这还是乱码。
00:07:48薄煎饼。
00:07:48好的,是的。
00:07:49所以飞行薄煎饼,也就是,所以它可能指的是薄而圆的。
00:07:57薄而圆。
00:07:57那个破译对了。
00:07:59然后,是的,剩下的它没能破译出来。
00:08:02所以你可以看到Interphase在某些区域确实很吃力。
00:08:07但我认为它做得相当不错。
00:08:09考虑到这是一份连人类都很难阅读的旧文档,我觉得它令人印象深刻。
00:08:19我还有另一个例子,其中包含一个手写笔记。
00:08:25让我们看看我们能从中得到什么。
00:08:29联邦,嗯,这显然是调查局,我猜。
00:08:35这很有趣。
00:08:36我们实际上可以在这里破译一些东西。
00:08:39以为它是一个气球,但它朝一个明确的、明确的方向前进...
00:08:48我不知道这是什么。
00:08:50但我们可以看到这个笔记与目击者试图解释他们所看到的内容有关。
00:09:02逐渐上升,沿着一条路径。
00:09:05类似于子弹的轨迹。
00:09:09哇,好的,所以我们这里确实得到了一些UFO的东西。
00:09:14在远处的距离数学。
00:09:18是的,我不知道这是否正确,但干得好,干得好。
00:09:23我的意思是,我很惊讶。
00:09:25我觉得这个OCR做得比我作为一个人类做得更好,所以相当不错。
00:09:34这是另一个更容易阅读的文本例子。
00:09:40我们可以看到,因为很多框实际上是绿色的。
00:09:43这里唯一的问题是有些文字有点褪色。
00:09:50我很惊讶。
00:09:51这里有很多酷的东西。
00:09:55它能够破译出来,所以这非常酷。
00:10:00当然,看看一些解密的UFO文件很有趣。
00:10:05所以,如果任何UFO粉丝想筛选这些文件,那么你可以试用一下Interphase。
00:10:12也许我们能在这一堆解密文件中找到一些有趣或有价值的东西。
00:10:20好了,这就是了,伙计们。
00:10:21这就是Interphase。
00:10:22我老实说认为这是一个非常酷的AI模型,非常针对开发人员。
00:10:29如果我要创建一个应用程序,并且我想要100%确定每次给出提示时都能得到确定性的输出,
00:10:39我认为这是目前最好的工具之一,因为它每次都能给你非常结构化的JSON。
00:10:46你可以信赖它。
00:10:47它不会产生幻觉。
00:10:49至少这就是这个工具背后的理念。
00:10:52所以,如果你正在寻找这样的东西,一定要试用一下Interphase。
00:10:56所以,如果你试用了,请在下方的评论中告诉我你喜不喜欢它。
00:11:00伙计们,一如既往,如果你喜欢这些类型的技术分析,请通过猛击视频下方的点赞按钮告诉我。
00:11:07也别忘了订阅我们的频道。
00:11:10这是来自Betterstack的Andrus,我们下个视频再见。

Key Takeaway

Interphase 通过任务特定的编码器混合架构,将结构化输出作为核心构建方式,确保开发者能够获得 100% 确定性的 JSON 输出。

Highlights

  • Interphase 使用混合架构,利用特定任务的卷积神经网络和音频深度神经网络栈,取代了通用的单体 Transformer 架构。

  • 该模型发布了结构化输出基准(SOB),专门衡量 JSON 内部数据的准确性。

  • Interphase 在处理复杂图表数据提取和多语言转录等确定性任务时,优于 Gemini 3 Flash 和 GPT 5.4 Mini。

  • 系统支持可调整的护栏设置,允许开发者根据具体应用场景配置安全过滤器的敏感度。

  • 定价标准为每 100 万个 token 1.50 美元,新用户注册可获赠 20 美元的免费额度。

Timeline

Interphase 的架构优势

  • Interphase 采用混合架构,而非 GPT-4 等通用模型使用的单体 Transformer 架构。
  • 视觉处理使用卷积神经网络(CNN)识别文本块、形状和坐标,再交给 Transformer 编排器处理。
  • 该模型专门优化了结构化输出,使其在处理过程中直接生成有效的 JSON。

传统的通用模型在预测下一个词时容易产生格式错误或非确定性输出。Interphase 将繁重的数据识别任务卸载给专用的 CNN 和神经网络,确保结构化数据不再是事后补救,而是构建流程的组成部分。

功能特性与安全控制

  • 该模型在网页抓取任务中能够过滤样板代码,将网页视为结构化地图。
  • 用户可以根据应用场景自定义安全防护的敏感度,避免过度拒绝合法请求。
  • 系统允许通过调整温度(Temperature)和 Top P 参数来微调输出需求。

相较于传统的黑匣子式安全过滤,Interphase 允许针对具体业务调节护栏。这种灵活性使得模型在保持高安全性标准的同时,能够持续为特定任务提供帮助。

实战性能与 OCR 测试

  • Interphase 能够通过系统提示构建器生成代码片段,并支持导出结构化 JSON。
  • 该模型在解读解密后的五角大楼 UFO 文档时,即使面对手写笔记也能提取关键文本信息。
  • 对于难以阅读的文档,输出结果包含边界框信息及置信度分数。

在处理低质量、褪色的历史文档时,模型利用内置的 OCR 能力识别文本。测试显示,该模型能够成功转录手写笔记及复杂扫描件,并以 JSON 格式提供对应的空间位置数据。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video