00:00:00La mayoría de la gente asume que ejecutar un modelo de visión de lenguaje potente requiere una GPU masiva
00:00:05o una suscripción de pago a un servicio en la nube.
00:00:08Sin embargo, Liquid AI lanzó recientemente una demostración de su modelo LFM más nuevo funcionando completamente
00:00:14dentro de un navegador web.
00:00:16Usando WebGPU y el motor ONNX Runtime, este modelo puede procesar imágenes y videos localmente.
00:00:23Esto significa que tus datos nunca salen de tu ordenador y ni siquiera necesitas conexión a Internet
00:00:28una vez que el modelo está almacenado en caché en tu dispositivo.
00:00:30Sinceramente creo que eso es genial, así que en este video, vamos a echar un vistazo a
00:00:34este modelo, ver cómo rinde, hacer una pequeña prueba y descubrir si es realmente tan potente
00:00:40como dicen.
00:00:41Va a ser muy divertido, así que vamos a sumergirnos en ello.
00:00:48LFM significa Liquid Foundation Model (Modelo de Cimentación Líquido).
00:00:52Y en lugar de depender solo de la arquitectura de transformadores, Liquid AI utiliza un diseño híbrido.
00:00:58Combina bloques convolucionales con algo llamado atención de consulta agrupada.
00:01:03El modelo de 1.600 millones de parámetros está específicamente ajustado para visión y lenguaje.
00:01:09Está entrenado en un conjunto de datos masivo de 28 billones de tokens, lo que le ayuda a rendir
00:01:15por encima de su categoría.
00:01:16En las pruebas de rendimiento, a menudo iguala el nivel de modelos del doble de su tamaño, siendo
00:01:21significativamente más rápido en dispositivos finales como portátiles y teléfonos.
00:01:26Ahora te preguntarás, ¿cómo lograron comprimir este nivel de inteligencia en un paquete
00:01:31que cabe en menos de un gigabyte de RAM?
00:01:34A diferencia de otros modelos diminutos que usan versiones podadas o comprimidas de modelos gigantes en la nube,
00:01:40Liquid AI utiliza una filosofía llamada "eficiencia por diseño".
00:01:44El término "liquid" en su nombre se refiere a su arquitectura lineal de entrada variable, o LIV.
00:01:51Mientras que los transformadores tradicionales tienen una memoria que crece cuanto más interactúas con ellos,
00:01:56el modelo Liquid utiliza un sistema híbrido de bloques convolucionales adaptativos.
00:02:01Estos bloques actúan básicamente como filtros inteligentes que procesan solo la información local más relevante,
00:02:07comprimiendo eficazmente los datos a medida que fluyen por el modelo.
00:02:11Esto permite al LFM mantener su ventana de contexto masiva de 32.000 tokens sin la ralentización
00:02:18exponencial o los picos de memoria habituales que se ven en los transformadores tradicionales.
00:02:23Y hay detalles técnicos específicos que hacen que este modelo destaque sobre el resto.
00:02:28En primer lugar, tiene una resolución nativa.
00:02:30Maneja imágenes de hasta 512 por 512 píxeles sin distorsión ni escalado.
00:02:37Y para imágenes más grandes, utiliza una estrategia de mosaico, que básicamente divide la imagen en parches
00:02:42mientras mantiene una miniatura para el contexto global.
00:02:46Y en segundo lugar, es muy eficiente.
00:02:47Debido a su arquitectura híbrida, ofrece un consumo de memoria muy bajo, funcionando a menudo
00:02:52con menos de un gigabyte de RAM.
00:02:54Pero creo que lo más impresionante es la integración con WebGPU.
00:02:58La demo en el espacio de Hugging Face muestra cómo se puede usar para subtitulado de webcam en tiempo real.
00:03:04Así que vamos a probarlo nosotros mismos y ver qué tal rinde.
00:03:08Muy bien, veamos cómo funciona esto en realidad.
00:03:11Supongo que debemos elegir qué modelo de visión queremos cargar.
00:03:15Probemos el más potente con FP 16.
00:03:18Y vamos a cargarlo.
00:03:20Ahora, este modelo tarda una cantidad considerable de tiempo en descargarse.
00:03:23Y todo esto se está descargando en tu dispositivo.
00:03:25Así que la próxima vez que abras la aplicación, todo estará en caché.
00:03:28Perfecto.
00:03:29Ya hemos descargado el modelo con cuantización FP 16.
00:03:34Hagamos clic en iniciar y veamos cómo funciona.
00:03:36¡Oh, miren eso!
00:03:38Un hombre con barba y sudadera con capucha está mirando a la cámara.
00:03:40Vale, es capaz de detectar qué tipo de objetos hay en el video, lo cual es
00:03:45bastante genial.
00:03:46Podemos hacer cosas como detección de objetos.
00:03:50Veamos si puede detectar un teléfono.
00:03:51Sí, detecta que estoy sosteniendo un iPhone con una funda negra.
00:03:57Eso está muy bien.
00:03:58Miren eso.
00:04:00Realmente lo está haciendo en tiempo real.
00:04:02Estoy impresionado.
00:04:04Entonces, ¿y si hago esto?
00:04:05¿Reconoce a alguien haciendo el signo de la paz con la mano?
00:04:10Eso es increíble.
00:04:12¿Y si levanto el pulgar?
00:04:13Sí, me sale un pulgar hacia arriba.
00:04:15El modelo detecta todo lo que estoy haciendo en tiempo real.
00:04:18Veamos si puede detectar mi micrófono.
00:04:21Oh, incluso detecta que tiene la marca Rode escrita.
00:04:24Vaya, incluso puede leer texto de la carcasa, lo cual es súper genial.
00:04:29El hecho de obtener estos subtítulos en tiempo real demuestra realmente que este modelo
00:04:33es muy potente.
00:04:35Déjenme intentar apagar la conexión a Internet y ver si sigue funcionando.
00:04:40He desactivado el wifi y sí, seguimos recibiendo los mismos resultados, lo cual es
00:04:50fantástico.
00:04:51Ahí lo tienen, amigos.
00:04:52Ese es el nuevo Liquid Foundation Model en pocas palabras.
00:04:56Me parece impresionante cuánto han evolucionado estos modelos de IA en términos de cuantización
00:05:01y la capacidad de ejecutarlos en dispositivos finales como mi portátil aquí mismo.
00:05:05Creo que hace solo dos años no creeríamos que esto fuera realidad, pero ahora
00:05:10es cada vez más común ejecutar estos modelos en una WebGPU.
00:05:14¿Qué opinas sobre el Liquid Foundation Model?
00:05:16¿Lo has probado?
00:05:17¿Lo usarás?
00:05:18¿Cuáles son los mejores casos de uso para un modelo así?
00:05:21Déjanos tus pensamientos en la sección de comentarios de abajo.
00:05:23Y amigos, si les gusta este tipo de análisis técnicos, por favor házmelo saber
00:05:27dándole al botón de me gusta debajo del video, y no olvides suscribirte al canal.
00:05:32Soy Andris de Better Stack, y nos vemos en los próximos videos.