El modelo de visión más RÁPIDO para tu laptop (Liquid AI LFM 2.5)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00La mayoría de la gente asume que ejecutar un modelo de visión de lenguaje potente requiere una GPU masiva
00:00:05o una suscripción de pago a un servicio en la nube.
00:00:08Sin embargo, Liquid AI lanzó recientemente una demostración de su modelo LFM más nuevo funcionando completamente
00:00:14dentro de un navegador web.
00:00:16Usando WebGPU y el motor ONNX Runtime, este modelo puede procesar imágenes y videos localmente.
00:00:23Esto significa que tus datos nunca salen de tu ordenador y ni siquiera necesitas conexión a Internet
00:00:28una vez que el modelo está almacenado en caché en tu dispositivo.
00:00:30Sinceramente creo que eso es genial, así que en este video, vamos a echar un vistazo a
00:00:34este modelo, ver cómo rinde, hacer una pequeña prueba y descubrir si es realmente tan potente
00:00:40como dicen.
00:00:41Va a ser muy divertido, así que vamos a sumergirnos en ello.
00:00:48LFM significa Liquid Foundation Model (Modelo de Cimentación Líquido).
00:00:52Y en lugar de depender solo de la arquitectura de transformadores, Liquid AI utiliza un diseño híbrido.
00:00:58Combina bloques convolucionales con algo llamado atención de consulta agrupada.
00:01:03El modelo de 1.600 millones de parámetros está específicamente ajustado para visión y lenguaje.
00:01:09Está entrenado en un conjunto de datos masivo de 28 billones de tokens, lo que le ayuda a rendir
00:01:15por encima de su categoría.
00:01:16En las pruebas de rendimiento, a menudo iguala el nivel de modelos del doble de su tamaño, siendo
00:01:21significativamente más rápido en dispositivos finales como portátiles y teléfonos.
00:01:26Ahora te preguntarás, ¿cómo lograron comprimir este nivel de inteligencia en un paquete
00:01:31que cabe en menos de un gigabyte de RAM?
00:01:34A diferencia de otros modelos diminutos que usan versiones podadas o comprimidas de modelos gigantes en la nube,
00:01:40Liquid AI utiliza una filosofía llamada "eficiencia por diseño".
00:01:44El término "liquid" en su nombre se refiere a su arquitectura lineal de entrada variable, o LIV.
00:01:51Mientras que los transformadores tradicionales tienen una memoria que crece cuanto más interactúas con ellos,
00:01:56el modelo Liquid utiliza un sistema híbrido de bloques convolucionales adaptativos.
00:02:01Estos bloques actúan básicamente como filtros inteligentes que procesan solo la información local más relevante,
00:02:07comprimiendo eficazmente los datos a medida que fluyen por el modelo.
00:02:11Esto permite al LFM mantener su ventana de contexto masiva de 32.000 tokens sin la ralentización
00:02:18exponencial o los picos de memoria habituales que se ven en los transformadores tradicionales.
00:02:23Y hay detalles técnicos específicos que hacen que este modelo destaque sobre el resto.
00:02:28En primer lugar, tiene una resolución nativa.
00:02:30Maneja imágenes de hasta 512 por 512 píxeles sin distorsión ni escalado.
00:02:37Y para imágenes más grandes, utiliza una estrategia de mosaico, que básicamente divide la imagen en parches
00:02:42mientras mantiene una miniatura para el contexto global.
00:02:46Y en segundo lugar, es muy eficiente.
00:02:47Debido a su arquitectura híbrida, ofrece un consumo de memoria muy bajo, funcionando a menudo
00:02:52con menos de un gigabyte de RAM.
00:02:54Pero creo que lo más impresionante es la integración con WebGPU.
00:02:58La demo en el espacio de Hugging Face muestra cómo se puede usar para subtitulado de webcam en tiempo real.
00:03:04Así que vamos a probarlo nosotros mismos y ver qué tal rinde.
00:03:08Muy bien, veamos cómo funciona esto en realidad.
00:03:11Supongo que debemos elegir qué modelo de visión queremos cargar.
00:03:15Probemos el más potente con FP 16.
00:03:18Y vamos a cargarlo.
00:03:20Ahora, este modelo tarda una cantidad considerable de tiempo en descargarse.
00:03:23Y todo esto se está descargando en tu dispositivo.
00:03:25Así que la próxima vez que abras la aplicación, todo estará en caché.
00:03:28Perfecto.
00:03:29Ya hemos descargado el modelo con cuantización FP 16.
00:03:34Hagamos clic en iniciar y veamos cómo funciona.
00:03:36¡Oh, miren eso!
00:03:38Un hombre con barba y sudadera con capucha está mirando a la cámara.
00:03:40Vale, es capaz de detectar qué tipo de objetos hay en el video, lo cual es
00:03:45bastante genial.
00:03:46Podemos hacer cosas como detección de objetos.
00:03:50Veamos si puede detectar un teléfono.
00:03:51Sí, detecta que estoy sosteniendo un iPhone con una funda negra.
00:03:57Eso está muy bien.
00:03:58Miren eso.
00:04:00Realmente lo está haciendo en tiempo real.
00:04:02Estoy impresionado.
00:04:04Entonces, ¿y si hago esto?
00:04:05¿Reconoce a alguien haciendo el signo de la paz con la mano?
00:04:10Eso es increíble.
00:04:12¿Y si levanto el pulgar?
00:04:13Sí, me sale un pulgar hacia arriba.
00:04:15El modelo detecta todo lo que estoy haciendo en tiempo real.
00:04:18Veamos si puede detectar mi micrófono.
00:04:21Oh, incluso detecta que tiene la marca Rode escrita.
00:04:24Vaya, incluso puede leer texto de la carcasa, lo cual es súper genial.
00:04:29El hecho de obtener estos subtítulos en tiempo real demuestra realmente que este modelo
00:04:33es muy potente.
00:04:35Déjenme intentar apagar la conexión a Internet y ver si sigue funcionando.
00:04:40He desactivado el wifi y sí, seguimos recibiendo los mismos resultados, lo cual es
00:04:50fantástico.
00:04:51Ahí lo tienen, amigos.
00:04:52Ese es el nuevo Liquid Foundation Model en pocas palabras.
00:04:56Me parece impresionante cuánto han evolucionado estos modelos de IA en términos de cuantización
00:05:01y la capacidad de ejecutarlos en dispositivos finales como mi portátil aquí mismo.
00:05:05Creo que hace solo dos años no creeríamos que esto fuera realidad, pero ahora
00:05:10es cada vez más común ejecutar estos modelos en una WebGPU.
00:05:14¿Qué opinas sobre el Liquid Foundation Model?
00:05:16¿Lo has probado?
00:05:17¿Lo usarás?
00:05:18¿Cuáles son los mejores casos de uso para un modelo así?
00:05:21Déjanos tus pensamientos en la sección de comentarios de abajo.
00:05:23Y amigos, si les gusta este tipo de análisis técnicos, por favor házmelo saber
00:05:27dándole al botón de me gusta debajo del video, y no olvides suscribirte al canal.
00:05:32Soy Andris de Better Stack, y nos vemos en los próximos videos.

Key Takeaway

Liquid AI LFM 2.5 revoluciona la IA de visión al permitir una ejecución local ultrarrápida y privada directamente en el navegador, superando en eficiencia a los modelos basados puramente en transformadores.

Highlights

Liquid AI ha lanzado el modelo LFM 2.5, capaz de ejecutarse localmente en un navegador mediante WebGPU y ONNX Runtime.

El modelo LFM (Liquid Foundation Model) utiliza una arquitectura híbrida que combina bloques convolucionales con atención de consulta agrupada.

Posee 1.600 millones de parámetros y ha sido entrenado con un conjunto masivo de 28 billones de tokens.

Gracias a su diseño de eficiencia lineal (LIV), mantiene una ventana de contexto de 32.000 tokens con un uso mínimo de memoria RAM.

Soporta resolución nativa de hasta 512x512 píxeles y utiliza una estrategia de mosaico para procesar imágenes más grandes.

La demostración técnica confirma que el modelo funciona en tiempo real incluso sin conexión a Internet una vez descargado.

Capacidad avanzada de visión que permite detectar objetos, gestos y leer texto de etiquetas físicas con alta precisión.

Timeline

Introducción a la ejecución local de visión

El presentador cuestiona la creencia de que se necesita una GPU masiva o suscripciones en la nube para ejecutar modelos de visión potentes. Introduce el nuevo modelo LFM de Liquid AI, el cual funciona íntegramente dentro de un navegador web utilizando tecnologías como WebGPU. Esta arquitectura garantiza la privacidad total, ya que los datos nunca abandonan el ordenador del usuario. Una vez que el modelo se almacena en la caché del dispositivo, ni siquiera se requiere una conexión a Internet activa para su funcionamiento. Este avance representa un cambio significativo hacia la democratización de la IA de alto rendimiento en dispositivos locales.

Arquitectura y filosofía de Liquid Foundation Models

Se explica que LFM significa Liquid Foundation Model y se detalla su innovador diseño híbrido. A diferencia de los transformadores convencionales, este modelo de 1.600 millones de parámetros combina bloques convolucionales con atención de consulta agrupada. El entrenamiento se basó en 28 billones de tokens, lo que permite al modelo rendir como si tuviera el doble de su tamaño real. Esta eficiencia por diseño es lo que permite que una inteligencia tan compleja quepa en menos de un gigabyte de RAM. El objetivo principal es ofrecer velocidad y potencia en dispositivos finales como portátiles y teléfonos inteligentes sin sacrificar la precisión.

Ventajas técnicas: LIV y gestión de contexto

La arquitectura lineal de entrada variable (LIV) es el núcleo que da nombre al modelo "líquido". Mientras los transformadores tradicionales sufren de una memoria que crece exponencialmente, los bloques convolucionales adaptativos de LFM actúan como filtros inteligentes. Esto permite mantener una ventana de contexto masiva de 32.000 tokens sin ralentizaciones ni picos excesivos de memoria. El sistema comprime eficazmente los datos localmente relevantes a medida que fluyen por la red neuronal. Gracias a esto, el modelo es capaz de procesar secuencias largas de información de manera mucho más fluida que sus competidores directos.

Capacidades de imagen y WebGPU

En esta sección se destacan las capacidades de procesamiento visual, incluyendo el manejo nativo de imágenes de 512x512 píxeles. Para archivos de mayor tamaño, el modelo emplea una estrategia de mosaico que preserva el contexto global mediante miniaturas mientras analiza parches detallados. La integración con WebGPU es un punto clave, permitiendo que el hardware de gráficos del usuario acelere el modelo directamente desde el navegador. El video menciona cómo esta tecnología se utiliza para el subtitulado de video en tiempo real. Esta combinación de técnicas asegura un consumo de recursos extremadamente bajo y una respuesta inmediata.

Demostración práctica y detección en tiempo real

El presentador realiza una prueba en vivo cargando el modelo FP 16 en un espacio de Hugging Face. El sistema demuestra ser capaz de identificar rápidamente al narrador, detectando detalles como su barba y vestimenta. Durante la prueba, el modelo identifica con éxito un iPhone con funda negra y reconoce gestos manuales como el signo de la paz y el pulgar hacia arriba. Una parte impresionante es la capacidad de leer texto pequeño, logrando identificar la marca "Rode" en un micrófono. La fluidez de los subtítulos generados en tiempo real valida las afirmaciones sobre la potencia y velocidad del modelo LFM 2.5.

Prueba de modo offline y conclusiones

Para verificar la autonomía del modelo, el presentador desactiva la conexión wifi y confirma que el reconocimiento sigue funcionando perfectamente. Este experimento subraya la importancia de la computación en el borde para la privacidad y la resiliencia tecnológica. El video concluye reflexionando sobre lo increíble que es ver esta evolución en solo dos años, pasando de modelos pesados en la nube a IA local eficiente. Se invita a la audiencia a compartir sus opiniones sobre los casos de uso más adecuados para esta tecnología. Finalmente, se hace un llamado a la acción para suscribirse y apoyar el contenido técnico del canal.

Community Posts

View all posts