00:00:00Minimax acaba de lanzar M2.5, un modelo de programación que casi supera a Claude Opus 4.6, pero cuesta diez veces menos.
00:00:07Se lanzó hace apenas unos días, tiene pesos abiertos, cuenta con 230 mil millones de parámetros y está diseñado para flujos de trabajo con agentes.
00:00:14Si estás creando agentes de IA, copilotos o herramientas de automatización, esto cambiará tus costos de la noche a la mañana.
00:00:19Y lo más increíble no son solo los resultados de las pruebas de rendimiento, sino también el precio.
00:00:23Publicamos videos todo el tiempo, así que no olvides suscribirte.
00:00:31Minimax M2.5 es un modelo de “mezcla de expertos” que tiene 230 mil millones de parámetros en total, pero solo utiliza 10 mil millones al ejecutarse.
00:00:39Así obtienes un modelo enorme sin tener que pagar por toda su capacidad cada vez que lo usas.
00:00:43Está hecho para flujos de desarrollo reales, usando Python, Java, Rust, refactorización de múltiples archivos, bucles de llamadas a herramientas e incluso automatización en Word y Excel.
00:00:53Existen dos versiones: la estándar, que procesa 50 tokens por segundo, y la lightning, que llega a los 100 tokens por segundo.
00:01:01Es multilingüe y sus pesos están totalmente abiertos en Hugging Face.
00:01:05Eso significa que puedes ajustarlo, ejecutarlo en tus propios servidores y evitar la dependencia de un solo proveedor; aquí es donde se pone interesante para los agentes.
00:01:12Probé el mismo mensaje tanto en Opus como en Minimax para crear un tablero Kanban de stack completo.
00:01:18Nada demasiado complejo, solo lo suficiente para que construyeran algo y ver cómo se comparaban.
00:01:23He dejado el prompt exacto que usé en la descripción por si quieren leerlo, pero primero veamos la versión de Opus, que tardó unos 4 minutos en ejecutarse.
00:01:31Obtuvimos lo que esperábamos; no tuve que darle más instrucciones, este fue el resultado final.
00:01:37Todo aquí es muy fluido, funciona realmente bien y la interfaz se ve bastante bien para ser una base inicial.
00:01:44La función de arrastrar y soltar va perfecta, y la edición de tareas también. Me gusta mucho esta etiqueta con la carpeta correcta, que cambia al arrastrarlas. Es un buen detalle.
00:01:55En resumen, Opus hizo un gran trabajo, que es básicamente lo que esperaba.
00:02:00Ahora, vamos con Minimax. Tardó unos 8 minutos en terminar, quizás porque lo importé en Cursor en lugar de usar su sitio web, pero quería tenerlo en Cursor.
00:02:10Aunque tardó más, costó una décima parte, así que no me voy a quejar por eso.
00:02:14En general, hizo un trabajo excelente con un solo prompt. La interfaz flojea un poco comparada con la de Opus, pero mantenemos la misma funcionalidad.
00:02:22Puedo crear tareas y arrastrarlas a la columna correcta, así que todo eso funciona genial.
00:02:27Lo único que no hizo fue añadir esa pequeña etiqueta en cada tarjeta que tanto me gustó de Opus.
00:02:33Otro punto que no logró fue la capacidad de editar la descripción del cuadro.
00:02:38Si intento editar la descripción, como ven, no cambia nada.
00:02:42Así que tendría que ejecutarlo una segunda vez para que hiciera lo que debe, básicamente.
00:02:48Aun así está bien porque, repito, cuesta una décima parte.
00:02:51Hablemos de lo que realmente les importa a los desarrolladores. M2.5 usa aprendizaje por refuerzo para la descomposición de tareas.
00:02:58Por lo tanto, desglosa mejor los problemas, lo que resulta en un 20 % menos de llamadas a herramientas y un 5 % menos de desperdicio de tokens.
00:03:06Si has creado agentes antes, sabes que las llamadas a herramientas es donde todo se encarece y puede volverse un caos.
00:03:13También maneja ediciones de múltiples archivos y ciclos de ejecución, depuración y corrección, cambiando de herramientas sin desmoronarse.
00:03:21En pruebas de búsqueda, reduce las rondas de búsqueda en un 20 % comparado con su versión anterior, M2.1.
00:03:27También admite caché, lo que significa que las consultas repetidas pueden costar menos con el tiempo.
00:03:32Puedes conectarlo directamente a Ollama, clústeres locales, automatizaciones de GitHub o tus flujos de CI.
00:03:37Ahora, hablemos de comparativas de rendimiento frente a Opus.
00:03:40En el benchmark de SWE-bench Verified, M2.5 superó el 80 %.
00:03:45Claude Opus 4.6 quedó ligeramente por encima, también rozando el 80 %. La diferencia es mínima.
00:03:52En Multi-SWE-bench, supera el 51 %, liderando entre otros modelos abiertos.
00:03:58Y en DROID, de hecho supera a Opus por un 0.2 %; así que depende de dónde mires.
00:04:05En cuanto a velocidad, es un 37 % más rápido que el modelo anterior. Aunque aquí tardó 8 minutos, ¿vale?
00:04:11Opus 4.6 promedia una velocidad algo mayor, pero llegan a ser idénticos si se ejecutan en el formato adecuado.
00:04:18¿Qué significa esto para ti? Pues varias cosas.
00:04:20Podría significar menos reintentos, procesos de CI más limpios, menos rotación de tokens y más pull requests aprobados.
00:04:26Y en rendimiento de tareas de agentes, se mueve en niveles de GPT-5 o Gemini 3 Pro,
00:04:32pero con pesos abiertos. Ahora hablemos de la parte que realmente cambia las reglas del juego,
00:04:37que, incluso si tardó más, es el precio.
00:04:40M2.5 Standard cuesta $0.15 por millón de tokens de entrada y $1.20 por millón de salida.
00:04:47Lightning cuesta el doble: $0.30 por millón de entrada y $2.40 por salida.
00:04:53Ejecutar Lightning a 100 tokens por segundo durante una hora cuesta más o menos un dólar.
00:04:56Si usas Standard, que fue lo que hice yo, son unos 30 centavos por hora.
00:05:00Ahora compáralo con Claude Opus 4.6. La diferencia es abismal.
00:05:04$5 por millón de tokens de entrada y $25 por millón de tokens de salida.
00:05:09Por cada tarea de ingeniería de software, cuesta un 10 % que Opus, gracias a su eficiencia y menor uso de herramientas.
00:05:15También hay un nivel de API gratuito disponible ahora mismo. Yo pagué por esto,
00:05:20pero la opción existe. Y ahí es donde la rentabilidad empieza a cambiar de verdad.
00:05:24¿Deberías dejar Opus 4.6? Bueno, en cuanto a rendimiento, son casi idénticos.
00:05:30Tardó un poco más, ¿no? Usé Standard y no Lightning, pero son muy parecidos.
00:05:34El tiempo de finalización de tareas es básicamente el mismo y la profundidad de razonamiento es comparable.
00:05:39Pero en costo, es muchísimo más barato. Ahí ya decides tú.
00:05:43Además, usa un 20 % menos de llamadas a herramientas y no desperdicia esos tokens, como dije antes.
00:05:47En flexibilidad, tiene pesos abiertos. Puedes desplegarlo localmente o ajustarlo a tu medida.
00:05:52Es cierto que Opus aún mantiene una ligera ventaja en lo más alto de la inteligencia premium.
00:05:57Ese sigue siendo el modelo de referencia con el que estamos trabajando.
00:06:00Pero esto importa porque ahora puedes ejecutar agentes a gran escala sin que el precio sea una carga.
00:06:05Como M2.5 tiene una tasa de éxito del 59 % en pruebas avanzadas de agentes, puedes crear bots de repositorios autónomos,
00:06:12usar agentes de programación persistentes o automatizar flujos empresariales. No es perfecto,
00:06:17pero es realmente bueno por lo que hemos visto. Y el precio te permitirá experimentar y ponerlo a prueba al máximo.
00:06:22Minimax está lanzando novedades rápido, pasando de ciclos de meses a semanas.
00:06:27Las integraciones con Ollama y GitHub ya están cogiendo ritmo.
00:06:32Minimax M2.5 ofrece un rendimiento de programación nivel Opus a un precio económico y con pesos abiertos.
00:06:38Esa combinación es rara, pero en 2026 quién sabe qué veremos. Puedes probarlo gratis en Minimax, usarlo en Ollama o pillar una API como hice yo.
00:06:43¿Será este el nuevo modelo por defecto para agentes de desarrollo? Supongo que veremos cómo evoluciona todo.
00:06:48Nos vemos en el próximo video.