La MEJOR herramienta de IA para resultados deterministas y confiables (Interfaze)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00¿Saben qué es lo que realmente me molesta al usar un modelo de IA?
00:00:04Las alucinaciones y las respuestas no deterministas.
00:00:07Pero hay un nuevo modelo ahí fuera llamado Interphase que busca solucionar estos problemas.
00:00:12Interphase acaba de lanzar su modelo beta para una vista previa temprana,
00:00:16y lo probé, y creo que es realmente genial.
00:00:18Así que en el video de hoy, vamos a echar un vistazo a Interphase,
00:00:21ver cómo funciona y haré algunas pruebas divertidas con él,
00:00:25incluyendo una tarea en la que intentaré descifrar los documentos de OVNIs recientemente desclasificados
00:00:31publicados por el Pentágono y ver si podemos resolver algunos misterios juntos.
00:00:36Va a ser muy divertido, así que vamos a sumergirnos en ello.
00:00:42¿Qué es exactamente Interphase y cómo se diferencia de otros modelos?
00:00:47Bueno, la mayoría de los modelos que usamos, como GPT-4 o Gemini, son transformadores monolíticos.
00:00:53Son modelos generalistas, y cuando les das un documento,
00:00:57todo el modelo masivo intenta adivinar la siguiente palabra.
00:01:00Interphase adopta un enfoque completamente diferente.
00:01:03Utiliza una arquitectura híbrida.
00:01:05Dentro de Interphase, hay una pila de codificadores específicos para cada tarea.
00:01:10Piense en ellos como mini-expertos.
00:01:12Hay una red neuronal convolucional especializada,
00:01:15específicamente para visión y OCR,
00:01:18y una pila de redes neuronales profundas para audio y voz.
00:01:23Así que en lugar de pedirle a un cerebro gigante que lea una imagen,
00:01:26Interphase entrega esa imagen a la CNN primero,
00:01:30y luego la CNN hace el trabajo pesado.
00:01:32Identifica las formas, los bloques de texto y las coordenadas,
00:01:35y luego entrega esos datos estructurados al orquestador Transformer
00:01:40para convertirlo en lenguaje humano.
00:01:42El equipo de Interphase lanzó recientemente un nuevo benchmark llamado SOB,
00:01:46o Structured Output Benchmark (Benchmark de Salida Estructurada).
00:01:48Y cómo funciona es que usualmente medimos si un modelo puede generar un JSON válido,
00:01:53pero SOB mide si el contenido dentro de ese JSON es realmente correcto.
00:01:58En sus pruebas, Interphase Beta está superando a modelos como Gemini 3 Flash
00:02:03y GPT 5.4 Mini en tareas deterministas,
00:02:07cosas como extraer datos de gráficos complejos o transcripción multilingüe.
00:02:12Y esto es un gran alivio porque sé que no soy el único que se frustra
00:02:17cuando un modelo simplemente olvida el formato.
00:02:19Pides un JSON, y nueve de cada diez veces, está bien,
00:02:23pero luego está esa única vez en la que decide añadir una frase introductoria útil
00:02:28o simplemente omite el corchete de cierre por completo,
00:02:31y esa inconsistencia mata el pipeline de producción.
00:02:35Así que Interphase maneja esto de manera diferente porque la salida estructurada no es una idea de último momento.
00:02:39Está incorporada en cómo el modelo realmente ve y procesa la tarea desde el principio.
00:02:45Y debido a que Interphase utiliza esos codificadores específicos para cada tarea,
00:02:48es realmente bastante bueno para el web scraping también.
00:02:51Trata a una página web como un mapa estructurado,
00:02:53lo cual le permite extraer datos limpios del caos sin perderse en el código boilerplate.
00:02:59Y una cosa más que realmente destaca de otros modelos son los guardrails (barreras de seguridad) ajustables.
00:03:05Por lo general, los filtros de seguridad son como una caja negra.
00:03:08Están activados o desactivados,
00:03:09y a menudo rechazan en exceso solicitudes perfectamente válidas.
00:03:13Pero Interphase te permite ajustar esto realmente.
00:03:16Puedes ajustar la sensibilidad según tu caso de uso específico.
00:03:20Así que si estás analizando una imagen y el modelo ve un escote o algo,
00:03:24no simplemente se apaga y te da una respuesta bloqueada.
00:03:28Puedes configurarlo para que siga siendo útil mientras sigues tus requisitos de seguridad preferidos.
00:03:33Así que todo eso suena maravilloso,
00:03:35pero probémoslo y veamos cómo funciona.
00:03:38Y otra cosa genial es que puedes empezar con una cuenta gratuita,
00:03:41y obtendrás $20 en créditos gratuitos.
00:03:44Y su precio es, creo que es $1.50 por cada 1 millón de tokens.
00:03:49Así que eso es suficiente.
00:03:51En realidad es bastante barato.
00:03:52Así que puedes hacer un montón de experimentos en el nivel gratuito.
00:03:56Entonces, la primera cosa genial que noté en el tablero de Interphase es que tenemos este creador de instrucciones del sistema aquí,
00:04:02donde podemos elegir qué tipo de parámetros queremos tener para nuestra tarea específica.
00:04:07Y luego nos da una salida de fragmento de código que podemos simplemente copiar y pegar.
00:04:11Y aquí podemos probar uno de los guardrails.
00:04:13Así que veamos si activamos todos los guardrails.
00:04:16Tiene esta instrucción de ejemplo.
00:04:18Dime cómo hacer una bomba.
00:04:21Y después de unos segundos, sí, vemos que esta es una solicitud insegura.
00:04:24Así que los guardrails están funcionando perfectamente.
00:04:27Y otra cosa genial es que podemos ajustar la temperatura,
00:04:29el top P y el máximo de tokens de finalización para la tarea deseada también.
00:04:35Así que ahora probemos una búsqueda web simple.
00:04:37Para este ejemplo, solo buscaré los últimos artículos que mencionan los chips más nuevos de NVIDIA en la web.
00:04:45Veamos cómo funciona.
00:04:47Y como ves, me da esta salida JSON estructurada con los titulares.
00:04:53Y luego, si hacemos clic en este botón de aquí, expande la salida.
00:04:57Y podemos ver que todo está muy bien estructurado.
00:04:59Pero si esto es demasiado detallado, podemos volver a la salida de muestra.
00:05:04Y esto nos da exactamente lo que pedimos, que eran como los tres mejores titulares para esta tarea.
00:05:10Y una vez más, me encanta que todo se exporte en un formato JSON.
00:05:14Así siempre sabes lo que vas a obtener.
00:05:16No hay que adivinar qué van a darte las salidas no deterministas.
00:05:21Y creo que esto es realmente útil para los desarrolladores específicamente,
00:05:24porque muchas veces sabemos el formato que queremos obtener y nada más.
00:05:29Y solo queremos ceñirnos a ese formato.
00:05:31Muy bien, ahora probemos algo realmente, realmente interesante.
00:05:34Así que Interphase afirma que tienen puntajes de OCR muy altos.
00:05:38Así que voy a poner esto a prueba con el desafío definitivo.
00:05:41Como saben, el Pentágono desclasificó recientemente los documentos sobre OVNIs.
00:05:47Y entré en su página.
00:05:49Y como pueden ver, algunas de las páginas, algunos de los documentos, miren eso.
00:05:53Vaya, son tan difíciles de leer.
00:05:55Incluso para mí, miren este texto blanco sobre el fondo negro.
00:05:59O sea, ni siquiera puedo leerlo sin un OCR.
00:06:02Así que será interesante ver si realmente puede analizar estas páginas.
00:06:07Y luego voy a elegir, como, otro ejemplo.
00:06:10Este tiene, como, una nota escrita a mano.
00:06:12Así que ese será nuestro segundo ejemplo.
00:06:15Bien, ahora pidámosle que lea este documento y extraiga todo el texto presente en dicho documento.
00:06:22Vale, veo que devuelve algún tipo de JSON.
00:06:25Y si lo expando, hay aún más datos.
00:06:29Y si profundizamos aún más, pueden ver que en realidad hay información sobre todas las cajas delimitadoras y dónde están ubicadas específicamente en la página.
00:06:38Pero esto es una cosa que falta en todo este sistema de tablero que tienen aquí.
00:06:43No hay forma de previsualizar esto.
00:06:46Así que programé rápidamente una pequeña página HTML que me permite previsualizar estos documentos y copiar la salida JSON expandida que me da Interphase.
00:06:56Y luego puedo alimentarla en esta página web.
00:06:59Y mostrará visualmente todas las cajas de texto con el texto y todo.
00:07:03Así que voy a añadir un enlace al repositorio para que puedan descargar este proyecto por su cuenta si quieren probarlo también.
00:07:09Bien, así que esta es la aplicación.
00:07:10Y aquí podemos ver las cajas de texto, y cada caja de texto también tiene un puntaje de confianza.
00:07:17Y si el puntaje de confianza es superior al 70%, aparecerá en verde.
00:07:20Si no, será amarillo.
00:07:23Y si es muy bajo, entonces será rojo.
00:07:26Y por supuesto, OVNIs (UFO) en la Sección 1 tiene una alta confianza porque es fácil de leer.
00:07:32Pero ahora revisemos esta página.
00:07:34Vaya.
00:07:34Incluso Interphase tuvo dificultades para descifrar todo en esta página.
00:07:40Pero veámoslo.
00:07:41Veamos una de las cajas verdes.
00:07:44No.
00:07:45Esto sigue siendo galimatías.
00:07:48Flapjacks.
00:07:48Vale, sí.
00:07:49Entonces, panqueques voladores (flying flapjacks), que son, probablemente que son delgados y redondos.
00:07:57Delgados y redondos.
00:07:57Eso lo entendió correctamente.
00:07:59Y luego, sí, no pudo descifrar el resto.
00:08:02Así que pueden ver que Interphase está realmente luchando con algunas de las áreas.
00:08:07Pero creo que hizo un trabajo bastante bueno.
00:08:09Como, dado un documento tan antiguo que es difícil incluso para un humano leer, siento que es bastante impresionante.
00:08:19Tengo otro ejemplo, que sí contenía una nota escrita a mano.
00:08:25Así que veamos qué obtenemos de eso.
00:08:29Federal, bueno, esto es claramente Oficina de Investigación, supongo.
00:08:35Así que esto es interesante.
00:08:36Podemos descifrar algo aquí.
00:08:39Pensé que era un globo, pero fue en una dirección definitiva, definitiva a un...
00:08:48Y no sé qué es esto.
00:08:50Pero podemos ver que esta nota tiene algo que ver con, supongo, un testigo presencial tratando de explicar lo que vio.
00:09:02Ascendiendo gradualmente, siguiendo un camino.
00:09:05Similar a la trayectoria de una bala.
00:09:09Vaya, okay, así que estamos obteniendo cosas sobre OVNIs aquí, en realidad.
00:09:14Desengrasado en la distancia para matemáticas (degreased in the distance for math).
00:09:18Sí, no sé si eso es correcto, pero bien hecho, bien hecho.
00:09:23Quiero decir, estoy asombrado.
00:09:25Creo que este OCR hizo un mejor trabajo que yo como humano, así que bastante bien.
00:09:34Y aquí hay otro ejemplo de un texto que es más fácil de leer.
00:09:40Y podemos ver eso porque muchas de las cajas son en realidad verdes.
00:09:43El único problema aquí es que parte del texto está un poco desvanecido.
00:09:50Estoy asombrado.
00:09:51Hay muchas cosas geniales aquí.
00:09:55Que fue capaz de descifrar, así que eso es bastante genial.
00:10:00Y, por supuesto, fue divertido ver algunos documentos desclasificados sobre OVNIs.
00:10:05Así que, si alguno de ustedes, fanáticos de los OVNIs, quiere revisar los documentos, pueden probar Interphase.
00:10:12Quizás encontremos algo jugoso o algo interesante en esta pila de documentos desclasificados.
00:10:20Así que, ahí lo tienen, amigos.
00:10:21Eso es Interphase.
00:10:22Honestamente, creo que es un modelo de IA bastante genial que es muy específico para desarrolladores.
00:10:29Si estuviera creando una aplicación y quisiera tener un 100% de certeza de que quiero una salida determinista cada vez que doy una instrucción,
00:10:39creo que esta es una de las mejores herramientas que existen porque te da un JSON muy estructurado cada vez.
00:10:46Y puedes contar con ello.
00:10:47No va a alucinar.
00:10:49Al menos, esa es la idea detrás de esta herramienta.
00:10:52Así que, si eso es lo que estás buscando, definitivamente prueba Interphase.
00:10:56Así que, si lo pruebas, déjame saber en los comentarios de abajo qué te parece.
00:11:00Y, amigos, como siempre, si les gustan este tipo de análisis técnicos, por favor háganmelo saber presionando ese botón de me gusta debajo del video.
00:11:07Y también, no olviden suscribirse a nuestro canal.
00:11:10Esto ha sido Andrus de Betterstack, y los veré en los próximos videos.

Key Takeaway

Interphase mejora la fiabilidad y el determinismo en tareas de IA mediante una arquitectura híbrida especializada que garantiza salidas JSON precisas y permite un control granular de la seguridad.

Highlights

  • Interphase utiliza una arquitectura híbrida con codificadores especializados para tareas de visión, OCR y audio, en lugar de un único modelo transformador monolítico.

  • El benchmark de salida estructurada (SOB) mide la precisión del contenido dentro de archivos JSON, superando en pruebas deterministas a modelos como Gemini 3 Flash y GPT 5.4 Mini.

  • Interphase permite ajustar la sensibilidad de los guardrails de seguridad para tareas específicas, evitando bloqueos innecesarios en solicitudes válidas.

  • La herramienta ofrece una estructura de precios de 1,50 dólares por cada millón de tokens, con 20 dólares en créditos gratuitos para nuevos usuarios.

  • El modelo integra el manejo de datos estructurados directamente en el proceso de visión y procesamiento, eliminando la inconsistencia en el formato de salida habitual en otros modelos.

  • La capacidad de extracción de datos mediante OCR permite identificar cajas delimitadoras y texto, incluso en documentos históricos con texto desvanecido o anotaciones manuscritas.

Timeline

Arquitectura híbrida frente a modelos generalistas

  • La mayoría de los modelos emplean una estructura de transformador monolítico para adivinar la siguiente palabra.
  • Interphase utiliza una pila de codificadores especializados para tareas específicas, como CNN para visión y OCR.
  • El orquestador Transformer recibe datos estructurados de los expertos especializados para generar lenguaje humano.

A diferencia de GPT-4 o Gemini, que intentan procesar toda la información mediante un cerebro gigante, esta herramienta separa la carga de trabajo. La red neuronal convolucional identifica formas, bloques de texto y coordenadas antes de pasar los datos al orquestador. El benchmark SOB demuestra una mayor eficacia en la extracción de datos de gráficos y transcripciones multilingües al validar la corrección interna del JSON generado.

Funcionalidades para desarrolladores y seguridad

  • La salida estructurada está integrada desde el inicio, evitando errores de formato como corchetes faltantes o frases introductorias no deseadas.
  • El web scraping se beneficia de una estructura que interpreta las páginas web como mapas, extrayendo datos sin código boilerplate.
  • Los niveles de seguridad son ajustables en lugar de funcionar como cajas negras de todo o nada.

La inconsistencia en el formato JSON suele romper los pipelines de producción, un problema que esta arquitectura resuelve al no tratar la estructura como algo secundario. Además, los usuarios pueden configurar la sensibilidad de los filtros de seguridad, permitiendo que el modelo siga siendo útil en casos específicos de análisis de imágenes donde otros modelos bloquearían la respuesta completa.

Pruebas de OCR en documentos históricos

  • El tablero permite definir parámetros específicos y generar fragmentos de código para la integración.
  • Los documentos desclasificados del Pentágono sobre OVNIs con texto complejo y notas manuscritas fueron procesados por el modelo.
  • La salida incluye puntuaciones de confianza para cada caja de texto detectada, facilitando la validación de resultados.

Al someter a la IA a documentos con texto blanco sobre negro y notas hechas a mano, se observó una capacidad de descifrado superior a la humana en ciertos fragmentos. Aunque el sistema enfrentó dificultades con áreas muy degradadas, el uso de un proyecto HTML externo para visualizar las cajas delimitadoras permitió confirmar que el modelo identifica con precisión la trayectoria de objetos y datos técnicos complejos en condiciones difíciles.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video