ЛУЧШИЙ ИИ-инструмент для надежных детерминированных результатов (Interfaze)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Знаете, что меня действительно раздражает при использовании нейросетей?
00:00:04Галлюцинации и недетерминированные ответы.
00:00:07Но появилась новая модель под названием Interphase, которая призвана решить эти проблемы.
00:00:12Interphase только что выпустили бета-версию для раннего доступа,
00:00:16я ее попробовал, и думаю, что она очень крутая.
00:00:18Так что сегодня в видео мы рассмотрим Interphase,
00:00:21посмотрим, как она работает, и я проведу с ней несколько забавных тестов,
00:00:25включая задачу, в которой я попытаюсь расшифровать недавно рассекреченные документы НЛО,
00:00:31опубликованные Пентагоном, и посмотрим, сможем ли мы вместе разгадать некоторые тайны.
00:00:36Будет очень интересно, так что давайте начнем.
00:00:42Так что же такое Interphase и чем она отличается от других моделей?
00:00:47Ну, большинство моделей, которые мы используем, вроде GPT-4 или Gemini, — это монолитные трансформеры.
00:00:53Это модели-генералисты, и когда вы даете им документ,
00:00:57вся огромная модель пытается угадать следующее слово.
00:01:00Interphase использует совершенно иной подход.
00:01:03У нее гибридная архитектура.
00:01:05Внутри Interphase есть стек специализированных энкодеров.
00:01:10Думайте о них как о мини-экспертах.
00:01:12Там есть специализированная сверточная нейронная сеть,
00:01:15предназначенная специально для зрения и распознавания текста (OCR),
00:01:18и стек глубоких нейронных сетей для аудио и речи.
00:01:23Так что вместо того, чтобы просить гигантский мозг прочитать изображение,
00:01:26Interphase сначала передает изображение в сверточную нейросеть,
00:01:30и затем она берет на себя всю тяжелую работу.
00:01:32Она идентифицирует формы, блоки текста и координаты,
00:01:35а затем передает эти структурированные данные трансформеру-оркестратору,
00:01:40чтобы превратить их в человеческий язык.
00:01:42Команда Interphase на самом деле выпустила новый бенчмарк под названием SOB,
00:01:46или Structured Output Benchmark (бенчмарк структурированного вывода).
00:01:48И работает он так: обычно мы проверяем, может ли модель выдать корректный JSON,
00:01:53но SOB измеряет, действительно ли содержание внутри этого JSON верно.
00:01:58В их тестах Interphase Beta превосходит такие модели, как Gemini 3 Flash
00:02:03и GPT 5.4 Mini в детерминированных задачах,
00:02:07таких как извлечение данных из сложных графиков или многоязычная транскрипция.
00:02:12И это огромное облегчение, потому что я знаю, что я не единственный, кого раздражает,
00:02:17когда модель просто забывает про формат.
00:02:19Вы просите JSON, и девять раз из десяти все нормально,
00:02:23но потом наступает тот самый раз, когда она решает добавить полезное вступительное предложение
00:02:28или просто полностью пропускает закрывающую скобку,
00:02:31и эта нестабильность убивает производственный конвейер.
00:02:35Так что Interphase справляется с этим иначе, потому что структурированный вывод — это не второстепенная задача.
00:02:39Это встроено в то, как модель на самом деле видит и обрабатывает задачу с самого начала.
00:02:45И поскольку Interphase использует эти специализированные энкодеры,
00:02:48она на самом деле неплохо справляется и с веб-скрейпингом.
00:02:51Она рассматривает веб-страницу как структурированную карту,
00:02:53что позволяет извлекать чистые данные из хаоса, не теряясь в шаблонном коде.
00:02:59И еще одна вещь, которая действительно выделяет ее среди других моделей — это настраиваемые защитные фильтры (guardrails).
00:03:05Обычно фильтры безопасности — это черный ящик.
00:03:08Они либо включены, либо выключены,
00:03:09и они часто чрезмерно отказывают в выполнении вполне законных запросов.
00:03:13Но Interphase позволяет вам действительно их настраивать.
00:03:16Вы можете отрегулировать чувствительность в зависимости от вашего конкретного случая использования.
00:03:20Так что если вы анализируете изображение и модель видит декольте или что-то подобное,
00:03:24она не просто выключается и выдает ответ о блокировке.
00:03:28Вы можете настроить ее так, чтобы она оставалась полезной, при этом следуя вашим предпочтительным требованиям безопасности.
00:03:33Все это звучит замечательно,
00:03:35но давайте действительно протестируем ее и посмотрим, как она работает.
00:03:38И еще одна классная вещь — можно начать с бесплатной учетной записи,
00:03:41и вы получите $20 в виде бесплатных кредитов.
00:03:44А их цена, по-моему, $1.50 за 1 миллион токенов.
00:03:49Так что этого вполне достаточно.
00:03:51Это на самом деле довольно дешево.
00:03:52Так что вы можете попробовать кучу экспериментов на бесплатном тарифе.
00:03:56Первое, что я заметил в панели управления Interphase, это встроенный конструктор системных промптов,
00:04:02где мы можем выбрать, какие параметры мы хотим задать для нашей конкретной задачи.
00:04:07А затем она выдает код, который мы можем просто скопировать и вставить.
00:04:11И здесь мы можем попробовать одну из функций защиты.
00:04:13Давайте посмотрим, что будет, если включить все защитные фильтры.
00:04:16Там есть пример промпта.
00:04:18Скажи мне, как сделать бомбу.
00:04:21И через несколько секунд, да, мы видим, что это небезопасный запрос.
00:04:24Так что фильтры работают идеально.
00:04:27И еще одна крутая вещь — мы можем настраивать температуру,
00:04:29параметр top P и максимальное количество токенов завершения для вашей задачи.
00:04:35А теперь давайте попробуем простой веб-поиск.
00:04:37Для примера, я просто поищу последние статьи в сети, в которых упоминаются новейшие чипы NVIDIA.
00:04:45Посмотрим, как она справится.
00:04:47И, как видите, она выдает структурированный JSON с заголовками.
00:04:53А если нажать на эту кнопку, вывод развернется.
00:04:57И мы видим, что все очень хорошо структурировано.
00:04:59Но если это слишком детально, мы можем просто вернуться к простому выводу.
00:05:04И это дает нам именно то, что мы просили, например, топ-3 заголовка для этой задачи.
00:05:10И снова мне нравится, что все выводится в формате JSON.
00:05:14Так что вы всегда знаете, что получите.
00:05:16Не нужно гадать, какими будут эти недетерминированные выводы.
00:05:21И я думаю, что это особенно полезно для разработчиков,
00:05:24потому что часто мы знаем формат, который хотим получить, и ничего больше.
00:05:29И мы просто хотим придерживаться этого одного формата.
00:05:31Хорошо, а теперь попробуем что-то действительно интересное.
00:05:34Interface заявляет, что у них очень высокие показатели OCR.
00:05:38Так что я подвергну ее главному испытанию.
00:05:41Как вы знаете, Пентагон недавно рассекретил документы НЛО.
00:05:47Я зашел на их страницу.
00:05:49И, как видите, некоторые страницы, некоторые документы — посмотрите на это.
00:05:53Вау, их так трудно читать.
00:05:55Даже мне — посмотрите на этот белый текст на черном фоне.
00:05:59Типа, я даже не могу прочитать это без OCR.
00:06:02Так что будет интересно посмотреть, сможет ли она вообще распарсить эти страницы.
00:06:07И потом я выберу еще один пример.
00:06:10На этом есть рукописная заметка.
00:06:12Так что это будет наш второй пример.
00:06:15Хорошо, теперь попросим ее прочитать этот документ и извлечь весь текст, присутствующий в нем.
00:06:22Так, я вижу, что она возвращает какой-то JSON.
00:06:25А если я разверну его, там еще больше данных.
00:06:29И если мы копнем глубже, то увидим, что там есть информация обо всех ограничивающих рамках и о том, где именно на странице они расположены.
00:06:38Но вот чего не хватает в этой системе панели управления.
00:06:43Нет способа нормально это просмотреть.
00:06:46Поэтому я на коленке набросал HTML-страницу, которая позволяет мне просматривать эти документы и копировать развернутый JSON-вывод от Interface.
00:06:56И потом я могу подать его на эту веб-страницу.
00:06:59И она визуально отобразит все текстовые блоки с текстом и всем остальным.
00:07:03Я добавлю ссылку на репозиторий, чтобы вы могли скачать этот проект и попробовать сами, если хотите.
00:07:09Хорошо, вот приложение.
00:07:10Здесь мы видим текстовые блоки, и у каждого блока есть оценка достоверности.
00:07:17И если оценка выше 70%, блок подсвечивается зеленым.
00:07:20Если нет, то желтым.
00:07:23А если она очень низкая, то будет красным.
00:07:26И, конечно, “UFO” в первом разделе имеет высокую достоверность, потому что это легко прочитать.
00:07:32Но давайте проверим эту страницу.
00:07:34Вау.
00:07:34Даже Interphase было трудно разобрать все на этой странице.
00:07:40Но давайте посмотрим.
00:07:41Посмотрим на один из зеленых блоков.
00:07:44Нет.
00:07:45Это все еще бессмыслица.
00:07:48Оладьи.
00:07:48Окей, да.
00:07:49Так что летающие оладьи (flying flapjacks), которые, вероятно, тонкие и круглые.
00:07:57Тонкие и круглые.
00:07:57Это она правильно поняла.
00:07:59А потом, да, она не смогла разобрать остальное.
00:08:02Так что видно, что Interphase действительно борется с некоторыми участками.
00:08:07Но я думаю, она проделала неплохую работу.
00:08:09Учитывая такой старый документ, который даже человеку трудно прочитать, я думаю, это впечатляет.
00:08:19У меня есть еще пример, который содержал рукописную заметку.
00:08:25Посмотрим, что мы получим от этого.
00:08:29Федеральное... ну, это явно Федеральное бюро расследований, я полагаю.
00:08:35Так что это интересно.
00:08:36Мы действительно можем что-то здесь расшифровать.
00:08:39Думали, что это воздушный шар, но он двигался в определенном, определенном направлении на...
00:08:48И я не знаю, что это.
00:08:50Но мы видим, что эта заметка имеет отношение к тому, что очевидец пытается объяснить то, что он видел.
00:09:02Постепенно набирая высоту, следуя по пути.
00:09:05Подобно траектории пули.
00:09:09Вау, окей, так что мы на самом деле получаем здесь информацию об НЛО.
00:09:14Снизился вдали для... (слово неразборчиво).
00:09:18Да, я не знаю, правильно ли это, но хорошо сделано, хорошо.
00:09:23В смысле, я поражен.
00:09:25Я думаю, этот OCR справился лучше, чем я как человек, так что довольно хорошо.
00:09:34И вот еще пример текста, который легче прочитать.
00:09:40И мы видим это, потому что многие блоки действительно зеленые.
00:09:43Единственная проблема здесь в том, что часть текста немного выцвела.
00:09:50Я поражен.
00:09:51Здесь много крутых вещей.
00:09:55Что она смогла это расшифровать — это довольно круто.
00:10:00И, конечно, было весело смотреть на некоторые рассекреченные документы об НЛО.
00:10:05Так что, если кто-то из вас, фанатов НЛО, хочет просеять документы, вы можете дать Interphase шанс.
00:10:12Может быть, мы найдем что-то интересное в этой куче рассекреченных документов.
00:10:20Вот так, ребята.
00:10:21Это Interphase.
00:10:22Я честно думаю, что это довольно крутая нейросеть, которая очень ориентирована на разработчиков.
00:10:29Если бы я создавал приложение и хотел бы иметь 100% уверенность в том, что я получу детерминированный ответ каждый раз, когда даю промпт,
00:10:39я думаю, это один из лучших инструментов, потому что он каждый раз выдает очень структурированный JSON.
00:10:46И на него можно положиться.
00:10:47Он не будет галлюцинировать.
00:10:49По крайней мере, такова идея этого инструмента.
00:10:52Так что, если это то, что вы ищете, обязательно попробуйте Interphase.
00:10:56И если вы попробуете, дайте знать в комментариях ниже, как вам.
00:11:00И, ребята, как всегда, если вам нравятся такие технические разборы, пожалуйста, дайте мне знать, нажав на кнопку лайка под видео.
00:11:07И также не забудьте подписаться на наш канал.
00:11:10С вами был Андрус из Betterstack, и увидимся в следующих видео.

Key Takeaway

Interphase предлагает разработчикам гибридную архитектуру с узкоспециализированными энкодерами, которая гарантирует детерминированный и структурированный JSON-вывод, превосходя по точности стандартные модели-генералисты в задачах извлечения данных.

Highlights

  • Interphase использует гибридную архитектуру со специализированными энкодерами для зрения и аудио вместо монолитных трансформеров.

  • Модель превосходит Gemini 3 Flash и GPT 5.4 Mini в задачах извлечения данных из сложных графиков и многоязычной транскрипции.

  • Система обеспечивает строго детерминированный вывод в формате JSON без пропусков скобок или вступительных предложений.

  • Стоимость использования модели составляет 1,50 доллара за 1 миллион токенов.

  • Встроенные защитные фильтры (guardrails) настраиваются по уровню чувствительности для конкретных задач вместо использования стандартных блокировок.

  • Специализированные энкодеры позволяют модели распознавать веб-страницы как структурированные карты, что исключает ошибки при веб-скрейпинге.

Timeline

Архитектурные отличия и принцип работы

  • Гибридная архитектура модели включает специализированные стеки энкодеров вместо единого монолитного трансформера.
  • Сверточная нейронная сеть берет на себя распознавание текста и визуальных форм до передачи данных оркестратору.
  • Бенчмарк SOB измеряет точность содержимого внутри JSON-вывода, а не только правильность формата.

В отличие от GPT-4 или Gemini, которые пытаются угадать следующее слово целиком, Interphase декомпозирует задачу. Специальные модули идентифицируют координаты и текстовые блоки, превращая хаотичные данные в структуру. Это обеспечивает стабильность производственных конвейеров, устраняя ошибки в синтаксисе JSON.

Функциональные возможности и настройка

  • Настраиваемые защитные фильтры предотвращают блокировку легитимных запросов при анализе изображений.
  • Панель управления содержит встроенный конструктор системных промптов с генерацией готового кода.
  • Параметры температуры, top P и лимиты токенов задаются пользователем для контроля вариативности ответов.

Пользователи могут регулировать чувствительность безопасности, что позволяет модели оставаться полезной даже при наличии чувствительного контента. Веб-скрейпинг в системе реализован через интерпретацию страницы как структурированной карты данных. Стоимость в 1,50 доллара за миллион токенов делает инструмент доступным для широкого тестирования.

Тестирование OCR на рассекреченных документах

  • Модель успешно распознала рукописные заметки и сложный текст в рассекреченных документах Пентагона.
  • Визуализация текстовых блоков с оценкой достоверности помогает отслеживать качество извлеченных данных.
  • Модель стабильно извлекает информацию даже из документов с плохим качеством печати и низким контрастом.

При анализе документов об НЛО система продемонстрировала высокую точность распознавания текста, включая рукописные фрагменты, описывающие траектории движения объектов. Несмотря на трудности с отдельными выцветшими участками, модель показала эффективность, превосходящую человеческие возможности чтения в сложных визуальных условиях.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video