¡Este nuevo motor ejecuta IA local usando 10 veces menos RAM! (Cactus)
BBetter Stack
Computing/SoftwareConsumer ElectronicsCell Phones
Transcript
00:00:00Este es Cactus. Es un motor de inferencia de baja latencia diseñado para tratar a los dispositivos móviles y perimetrales
00:00:06como ciudadanos de primera clase. Normalmente, cuando intentamos ejecutar modelos de IA en dispositivos perimetrales,
00:00:12se sienten pesados, agotan la batería y son propensos a ser cerrados por el gestor de memoria
00:00:18del sistema operativo móvil. Pero Cactus intenta resolver este problema porque está diseñado específicamente
00:00:23para las limitaciones de las unidades de procesamiento neural y la memoria RAM limitada. Así que hoy vamos
00:00:28a examinar Cactus, ver cómo funciona y probarlo en un dispositivo perimetral para ver su rendimiento.
00:00:34Así que vamos a sumergirnos en ello. El mayor cuello de botella para la IA local no es realmente el cómputo, es
00:00:44la sobrecarga de memoria. En un dispositivo móvil estándar, el sistema operativo es extremadamente agresivo
00:00:50a la hora de cerrar aplicaciones que tengan picos en el uso de RAM. Pero Cactus soluciona esto usando un mapeo de
00:00:57memoria de copia cero. En lugar del enfoque habitual donde cargas todo en la RAM, Cactus mapea
00:01:02los pesos del modelo directamente desde el almacenamiento. Es un sistema de copia cero que solo lleva tensores
00:01:08específicos al ciclo de cómputo activo a medida que se necesitan. Obtienes el poder de razonamiento de
00:01:13un modelo grande sin el riesgo de que el sistema operativo cierre tu aplicación. Y para lograr
00:01:19esto, incluso se han alejado del formato tradicional GGUF y tienen su propio
00:01:24formato propietario .CACT que permite que este mapeo sea efectivo en dispositivos perimetrales. Pero
00:01:31el verdadero trabajo pesado ocurre en la NPU o unidad de procesamiento neural. Mientras que la mayoría
00:01:37de los motores locales usan la GPU por defecto, Cactus está diseñado para priorizar la NPU. Si has visto los
00:01:43chips modernos de Apple, Qualcomm o MediaTek, todos tienen silicio dedicado solo para redes
00:01:50neuronales. Cactus se comunica con estas unidades directamente, saltándose las capas de traducción habituales
00:01:55 que ralentizan la inferencia. Y de hecho han optimizado modelos específicos para aprovechar
00:02:00al máximo estas unidades de multiplicación de matrices. Si entras al panel de control de Cactus,
00:02:07verás una lista de modelos optimizados para NPU listos para descargar. Y otra función genial que tiene
00:02:12Cactus es el enrutador híbrido. Ahora, la realidad es que en los dispositivos perimetrales, los modelos locales,
00:02:18por muy optimizados que estén, tarde o temprano chocan con su techo de razonamiento. Y aquí es donde entra
00:02:23el enrutador híbrido. En lugar de obligarte a elegir entre un modelo local rápido pero limitado y
00:02:29un modelo en la nube inteligente pero costoso, Cactus puede manejar ambos y alternar entre ellos. Utiliza
00:02:35un sistema de enrutamiento basado en la confianza. Y si le haces una pregunta simple, se queda en la
00:02:40NPU porque es rápido, privado y no te cuesta nada. Pero si el modelo local detecta que
00:02:45la tarea es demasiado compleja o requiere una ventana de contexto enorme, transfiere automáticamente
00:02:51la solicitud específica a un modelo de frontera en la nube. Tu código sigue siendo el mismo. El motor
00:02:57simplemente gestiona la conmutación por error en segundo plano. Así que es una forma lista para producción de mantener los costos
00:03:03bajos sin sacrificar la experiencia del usuario cuando las cosas se complican. Ahora, todo esto
00:03:08suena genial, pero quiero probarlo por mí mismo. Así que en su página de inicio, tienen
00:03:13esta demostración donde muestran cómo puedes hacer una transcripción en tiempo real con unos 100 milisegundos
00:03:19de latencia en un dispositivo perimetral. Así que me puse a programar de forma improvisada una pequeña app en Swift usando su
00:03:25paquete Swift Cactus, que admite la ejecución de una transcripción en tiempo real utilizando su modelo de voz
00:03:30Parakeet de forma local y un modelo Gemini en la nube. Así que vamos a probarlo. Como pueden
00:03:36ver, localmente, estamos promediando unos 260 milisegundos de latencia con transmisión en vivo. Y tengan en cuenta
00:03:44que estoy ejecutando esto en un modelo de iPhone más antiguo, el 12 Pro. Así que para un modelo antiguo como este,
00:03:50creo que este rendimiento en el dispositivo perimetral es bastante bueno. Y si cambiamos a la nube, Cactus cambia
00:03:55a Gemini 2.5 Flash como alternativa en la nube. Y por alguna razón, no tienen el mismo
00:04:01modelo Parakeet en su lado de la nube. Así que me vi obligado a usar Gemini. Y podemos ver aquí que
00:04:06esto está promediando alrededor de 2000 milisegundos para una transcripción por lotes de tres segundos. Y
00:04:12supongo que esto es de esperarse porque está haciendo un viaje de ida y vuelta al servidor de datos. Pero
00:04:17siendo realistas, la mayor parte del tiempo terminarías usando la transcripción en el dispositivo de todos modos,
00:04:23pero la opción de la nube es útil para otras tareas como el análisis pesado de imágenes o algo más
00:04:27que requiera un mayor esfuerzo de procesamiento. Así que ahí lo tienen, amigos, ese es el motor Cactus en
00:04:33pocas palabras. Creo que están haciendo algo muy interesante aquí. Me gusta cómo están
00:04:37pensando en la optimización en el dispositivo perimetral usando una arquitectura adaptada a la NPU. Y me gusta
00:04:43el hecho de que ofrezcan tantos SDK y tantos modelos para todo tipo de tareas multimodales.
00:04:50Y tengo mucha curiosidad por ver cómo evoluciona su producto. Así que seguiré de cerca su
00:04:54progreso, sin duda. ¿Pero qué piensan ustedes sobre Cactus? ¿Lo han probado? Cuéntennoslo
00:04:59abajo en la sección de comentarios. Y amigos, si les gusta este tipo de análisis, por favor
00:05:03háganmelo saber reventando el botón de me gusta debajo del video. Y tampoco olviden suscribirse
00:05:08a nuestro canal. Este ha sido Andris de Better Stack y los veré en los próximos
00:05:13videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video