¡Este nuevo motor ejecuta IA local usando 10 veces menos RAM! (Cactus)

BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones

Transcript

00:00:00Este es Cactus. Es un motor de inferencia de baja latencia diseñado para tratar a los dispositivos móviles y perimetrales
00:00:06como ciudadanos de primera clase. Normalmente, cuando intentamos ejecutar modelos de IA en dispositivos perimetrales,
00:00:12se sienten pesados, agotan la batería y son propensos a ser cerrados por el gestor de memoria
00:00:18del sistema operativo móvil. Pero Cactus intenta resolver este problema porque está diseñado específicamente
00:00:23para las limitaciones de las unidades de procesamiento neural y la memoria RAM limitada. Así que hoy vamos
00:00:28a examinar Cactus, ver cómo funciona y probarlo en un dispositivo perimetral para ver su rendimiento.
00:00:34Así que vamos a sumergirnos en ello. El mayor cuello de botella para la IA local no es realmente el cómputo, es
00:00:44la sobrecarga de memoria. En un dispositivo móvil estándar, el sistema operativo es extremadamente agresivo
00:00:50a la hora de cerrar aplicaciones que tengan picos en el uso de RAM. Pero Cactus soluciona esto usando un mapeo de
00:00:57memoria de copia cero. En lugar del enfoque habitual donde cargas todo en la RAM, Cactus mapea
00:01:02los pesos del modelo directamente desde el almacenamiento. Es un sistema de copia cero que solo lleva tensores
00:01:08específicos al ciclo de cómputo activo a medida que se necesitan. Obtienes el poder de razonamiento de
00:01:13un modelo grande sin el riesgo de que el sistema operativo cierre tu aplicación. Y para lograr
00:01:19esto, incluso se han alejado del formato tradicional GGUF y tienen su propio
00:01:24formato propietario .CACT que permite que este mapeo sea efectivo en dispositivos perimetrales. Pero
00:01:31el verdadero trabajo pesado ocurre en la NPU o unidad de procesamiento neural. Mientras que la mayoría
00:01:37de los motores locales usan la GPU por defecto, Cactus está diseñado para priorizar la NPU. Si has visto los
00:01:43chips modernos de Apple, Qualcomm o MediaTek, todos tienen silicio dedicado solo para redes
00:01:50neuronales. Cactus se comunica con estas unidades directamente, saltándose las capas de traducción habituales
00:01:55 que ralentizan la inferencia. Y de hecho han optimizado modelos específicos para aprovechar
00:02:00al máximo estas unidades de multiplicación de matrices. Si entras al panel de control de Cactus,
00:02:07verás una lista de modelos optimizados para NPU listos para descargar. Y otra función genial que tiene
00:02:12Cactus es el enrutador híbrido. Ahora, la realidad es que en los dispositivos perimetrales, los modelos locales,
00:02:18por muy optimizados que estén, tarde o temprano chocan con su techo de razonamiento. Y aquí es donde entra
00:02:23el enrutador híbrido. En lugar de obligarte a elegir entre un modelo local rápido pero limitado y
00:02:29un modelo en la nube inteligente pero costoso, Cactus puede manejar ambos y alternar entre ellos. Utiliza
00:02:35un sistema de enrutamiento basado en la confianza. Y si le haces una pregunta simple, se queda en la
00:02:40NPU porque es rápido, privado y no te cuesta nada. Pero si el modelo local detecta que
00:02:45la tarea es demasiado compleja o requiere una ventana de contexto enorme, transfiere automáticamente
00:02:51la solicitud específica a un modelo de frontera en la nube. Tu código sigue siendo el mismo. El motor
00:02:57simplemente gestiona la conmutación por error en segundo plano. Así que es una forma lista para producción de mantener los costos
00:03:03bajos sin sacrificar la experiencia del usuario cuando las cosas se complican. Ahora, todo esto
00:03:08suena genial, pero quiero probarlo por mí mismo. Así que en su página de inicio, tienen
00:03:13esta demostración donde muestran cómo puedes hacer una transcripción en tiempo real con unos 100 milisegundos
00:03:19de latencia en un dispositivo perimetral. Así que me puse a programar de forma improvisada una pequeña app en Swift usando su
00:03:25paquete Swift Cactus, que admite la ejecución de una transcripción en tiempo real utilizando su modelo de voz
00:03:30Parakeet de forma local y un modelo Gemini en la nube. Así que vamos a probarlo. Como pueden
00:03:36ver, localmente, estamos promediando unos 260 milisegundos de latencia con transmisión en vivo. Y tengan en cuenta
00:03:44que estoy ejecutando esto en un modelo de iPhone más antiguo, el 12 Pro. Así que para un modelo antiguo como este,
00:03:50creo que este rendimiento en el dispositivo perimetral es bastante bueno. Y si cambiamos a la nube, Cactus cambia
00:03:55a Gemini 2.5 Flash como alternativa en la nube. Y por alguna razón, no tienen el mismo
00:04:01modelo Parakeet en su lado de la nube. Así que me vi obligado a usar Gemini. Y podemos ver aquí que
00:04:06esto está promediando alrededor de 2000 milisegundos para una transcripción por lotes de tres segundos. Y
00:04:12supongo que esto es de esperarse porque está haciendo un viaje de ida y vuelta al servidor de datos. Pero
00:04:17siendo realistas, la mayor parte del tiempo terminarías usando la transcripción en el dispositivo de todos modos,
00:04:23pero la opción de la nube es útil para otras tareas como el análisis pesado de imágenes o algo más
00:04:27que requiera un mayor esfuerzo de procesamiento. Así que ahí lo tienen, amigos, ese es el motor Cactus en
00:04:33pocas palabras. Creo que están haciendo algo muy interesante aquí. Me gusta cómo están
00:04:37pensando en la optimización en el dispositivo perimetral usando una arquitectura adaptada a la NPU. Y me gusta
00:04:43el hecho de que ofrezcan tantos SDK y tantos modelos para todo tipo de tareas multimodales.
00:04:50Y tengo mucha curiosidad por ver cómo evoluciona su producto. Así que seguiré de cerca su
00:04:54progreso, sin duda. ¿Pero qué piensan ustedes sobre Cactus? ¿Lo han probado? Cuéntennoslo
00:04:59abajo en la sección de comentarios. Y amigos, si les gusta este tipo de análisis, por favor
00:05:03háganmelo saber reventando el botón de me gusta debajo del video. Y tampoco olviden suscribirse
00:05:08a nuestro canal. Este ha sido Andris de Better Stack y los veré en los próximos
00:05:13videos.

Key Takeaway

El motor de inferencia Cactus elimina el riesgo de cierre por falta de memoria en dispositivos móviles al ejecutar modelos locales directamente desde el almacenamiento mediante el formato .CACT y un sistema de copia cero orientado a la NPU.

Highlights

  • Cactus reduce el uso de memoria RAM hasta 10 veces mediante un sistema de mapeo de memoria de copia cero.

  • El motor Cactus sustituye el formato tradicional GGUF por un formato propietario denominado .CACT.

  • El sistema prioriza la unidad de procesamiento neural (NPU) en lugar de la GPU para ejecutar la inferencia de forma directa.

  • Un enrutador híbrido basado en la confianza alterna automáticamente entre la NPU local y modelos en la nube como Gemini 2.5 Flash.

  • Las pruebas de transcripción en tiempo real en un iPhone 12 Pro registran una latencia media de 260 milisegundos en modo local.

Timeline

Mitigación del cuello de botella de memoria en dispositivos móviles

  • Los sistemas operativos móviles cierran las aplicaciones de IA debido a los picos drásticos en el consumo de memoria RAM.
  • El mapeo de memoria de copia cero de Cactus carga los pesos del modelo directamente desde el almacenamiento del dispositivo.
  • El formato propietario .CACT reemplaza al estándar GGUF para habilitar el mapeo eficiente de tensores específicos.

La ejecución de modelos de IA locales en hardware periférico genera un consumo severo de batería y sobrecarga de memoria. El gestor de memoria de los sistemas operativos móviles penaliza de forma agresiva estos picos de consumo deteniendo los procesos de inmediato. Mediante la tecnología de copia cero, Cactus introduce únicamente los tensores estrictamente necesarios en el ciclo de cómputo activo. Este procedimiento permite ejecutar modelos de gran tamaño sin saturar los límites de la memoria RAM dinámica.

Optimización de hardware mediante el uso prioritario de la NPU

  • Cactus prioriza el uso de la NPU sobre la GPU para ejecutar los procesos de inferencia local.
  • La comunicación directa con el silicio de Apple, Qualcomm y MediaTek elimina las capas tradicionales de traducción de software.
  • El panel de control del motor distribuye modelos optimizados específicamente para las unidades de multiplicación de matrices.

La mayoría de los motores de inferencia locales delegan la carga de trabajo de forma predeterminada en la GPU. Los chips móviles modernos incorporan silicio dedicado exclusivamente al procesamiento de redes neuronales artificiales. Cactus se conecta directamente con estos componentes de hardware para acelerar la velocidad del procesamiento de datos. Esta arquitectura suprime la degradación de rendimiento asociada a las capas intermedias de traducción de software.

Gestión de costos y capacidades mediante el enrutador híbrido

  • El enrutador híbrido alterna el procesamiento entre la NPU local y los servidores de la nube según la complejidad de la tarea.
  • Un sistema basado en el nivel de confianza determina de manera autónoma el destino de cada solicitud.
  • La conmutación por error se ejecuta en segundo plano sin requerir modificaciones en el código de la aplicación.

Los modelos locales instalados en dispositivos periféricos presentan un límite físico en su capacidad de razonamiento y en el tamaño de su ventana de contexto. Las peticiones sencillas permanecen confinadas en la NPU para garantizar la privacidad, la velocidad del proceso y la gratuidad del servicio. Cuando el sistema detecta instrucciones complejas o que demandan un análisis masivo, transfiere la carga a un modelo de frontera en la nube. Esta gestión híbrida optimiza los costos operativos en entornos de producción sin deteriorar la experiencia de usuario.

Prueba de rendimiento y latencia en hardware antiguo

  • La transcripción local con el modelo de voz Parakeet registra una latencia media de 260 milisegundos en un iPhone 12 Pro.
  • La alternativa en la nube con Gemini 2.5 Flash eleva el tiempo de respuesta hasta los 2000 milisegundos por cada bloque de tres segundos.
  • El procesamiento en la nube se reserva de forma estratégica para el análisis de imágenes pesadas o tareas con alta carga de cómputo.

La implementación práctica de la tecnología se evaluó mediante una aplicación desarrollada en Swift utilizando el paquete Swift Cactus. El dispositivo de prueba, un iPhone 12 Pro, demostró la viabilidad de realizar transcripciones de audio en tiempo real con transmisión en vivo bajo un entorno local. El incremento de latencia observado al cambiar al modo en la nube se debe al viaje de ida y vuelta de los datos hacia el servidor. No obstante, dicha infraestructura descentralizada ofrece un respaldo necesario para procesamientos que superan la capacidad física del hardware local.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video