¿Cómo es esto casi tan bueno como Opus?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Minimax acaba de lanzar M2.5, un modelo de programación que casi supera a Claude Opus 4.6, pero cuesta diez veces menos.
00:00:07Se lanzó hace apenas unos días, tiene pesos abiertos, cuenta con 230 mil millones de parámetros y está diseñado para flujos de trabajo con agentes.
00:00:14Si estás creando agentes de IA, copilotos o herramientas de automatización, esto cambiará tus costos de la noche a la mañana.
00:00:19Y lo más increíble no son solo los resultados de las pruebas de rendimiento, sino también el precio.
00:00:23Publicamos videos todo el tiempo, así que no olvides suscribirte.
00:00:31Minimax M2.5 es un modelo de “mezcla de expertos” que tiene 230 mil millones de parámetros en total, pero solo utiliza 10 mil millones al ejecutarse.
00:00:39Así obtienes un modelo enorme sin tener que pagar por toda su capacidad cada vez que lo usas.
00:00:43Está hecho para flujos de desarrollo reales, usando Python, Java, Rust, refactorización de múltiples archivos, bucles de llamadas a herramientas e incluso automatización en Word y Excel.
00:00:53Existen dos versiones: la estándar, que procesa 50 tokens por segundo, y la lightning, que llega a los 100 tokens por segundo.
00:01:01Es multilingüe y sus pesos están totalmente abiertos en Hugging Face.
00:01:05Eso significa que puedes ajustarlo, ejecutarlo en tus propios servidores y evitar la dependencia de un solo proveedor; aquí es donde se pone interesante para los agentes.
00:01:12Probé el mismo mensaje tanto en Opus como en Minimax para crear un tablero Kanban de stack completo.
00:01:18Nada demasiado complejo, solo lo suficiente para que construyeran algo y ver cómo se comparaban.
00:01:23He dejado el prompt exacto que usé en la descripción por si quieren leerlo, pero primero veamos la versión de Opus, que tardó unos 4 minutos en ejecutarse.
00:01:31Obtuvimos lo que esperábamos; no tuve que darle más instrucciones, este fue el resultado final.
00:01:37Todo aquí es muy fluido, funciona realmente bien y la interfaz se ve bastante bien para ser una base inicial.
00:01:44La función de arrastrar y soltar va perfecta, y la edición de tareas también. Me gusta mucho esta etiqueta con la carpeta correcta, que cambia al arrastrarlas. Es un buen detalle.
00:01:55En resumen, Opus hizo un gran trabajo, que es básicamente lo que esperaba.
00:02:00Ahora, vamos con Minimax. Tardó unos 8 minutos en terminar, quizás porque lo importé en Cursor en lugar de usar su sitio web, pero quería tenerlo en Cursor.
00:02:10Aunque tardó más, costó una décima parte, así que no me voy a quejar por eso.
00:02:14En general, hizo un trabajo excelente con un solo prompt. La interfaz flojea un poco comparada con la de Opus, pero mantenemos la misma funcionalidad.
00:02:22Puedo crear tareas y arrastrarlas a la columna correcta, así que todo eso funciona genial.
00:02:27Lo único que no hizo fue añadir esa pequeña etiqueta en cada tarjeta que tanto me gustó de Opus.
00:02:33Otro punto que no logró fue la capacidad de editar la descripción del cuadro.
00:02:38Si intento editar la descripción, como ven, no cambia nada.
00:02:42Así que tendría que ejecutarlo una segunda vez para que hiciera lo que debe, básicamente.
00:02:48Aun así está bien porque, repito, cuesta una décima parte.
00:02:51Hablemos de lo que realmente les importa a los desarrolladores. M2.5 usa aprendizaje por refuerzo para la descomposición de tareas.
00:02:58Por lo tanto, desglosa mejor los problemas, lo que resulta en un 20 % menos de llamadas a herramientas y un 5 % menos de desperdicio de tokens.
00:03:06Si has creado agentes antes, sabes que las llamadas a herramientas es donde todo se encarece y puede volverse un caos.
00:03:13También maneja ediciones de múltiples archivos y ciclos de ejecución, depuración y corrección, cambiando de herramientas sin desmoronarse.
00:03:21En pruebas de búsqueda, reduce las rondas de búsqueda en un 20 % comparado con su versión anterior, M2.1.
00:03:27También admite caché, lo que significa que las consultas repetidas pueden costar menos con el tiempo.
00:03:32Puedes conectarlo directamente a Ollama, clústeres locales, automatizaciones de GitHub o tus flujos de CI.
00:03:37Ahora, hablemos de comparativas de rendimiento frente a Opus.
00:03:40En el benchmark de SWE-bench Verified, M2.5 superó el 80 %.
00:03:45Claude Opus 4.6 quedó ligeramente por encima, también rozando el 80 %. La diferencia es mínima.
00:03:52En Multi-SWE-bench, supera el 51 %, liderando entre otros modelos abiertos.
00:03:58Y en DROID, de hecho supera a Opus por un 0.2 %; así que depende de dónde mires.
00:04:05En cuanto a velocidad, es un 37 % más rápido que el modelo anterior. Aunque aquí tardó 8 minutos, ¿vale?
00:04:11Opus 4.6 promedia una velocidad algo mayor, pero llegan a ser idénticos si se ejecutan en el formato adecuado.
00:04:18¿Qué significa esto para ti? Pues varias cosas.
00:04:20Podría significar menos reintentos, procesos de CI más limpios, menos rotación de tokens y más pull requests aprobados.
00:04:26Y en rendimiento de tareas de agentes, se mueve en niveles de GPT-5 o Gemini 3 Pro,
00:04:32pero con pesos abiertos. Ahora hablemos de la parte que realmente cambia las reglas del juego,
00:04:37que, incluso si tardó más, es el precio.
00:04:40M2.5 Standard cuesta $0.15 por millón de tokens de entrada y $1.20 por millón de salida.
00:04:47Lightning cuesta el doble: $0.30 por millón de entrada y $2.40 por salida.
00:04:53Ejecutar Lightning a 100 tokens por segundo durante una hora cuesta más o menos un dólar.
00:04:56Si usas Standard, que fue lo que hice yo, son unos 30 centavos por hora.
00:05:00Ahora compáralo con Claude Opus 4.6. La diferencia es abismal.
00:05:04$5 por millón de tokens de entrada y $25 por millón de tokens de salida.
00:05:09Por cada tarea de ingeniería de software, cuesta un 10 % que Opus, gracias a su eficiencia y menor uso de herramientas.
00:05:15También hay un nivel de API gratuito disponible ahora mismo. Yo pagué por esto,
00:05:20pero la opción existe. Y ahí es donde la rentabilidad empieza a cambiar de verdad.
00:05:24¿Deberías dejar Opus 4.6? Bueno, en cuanto a rendimiento, son casi idénticos.
00:05:30Tardó un poco más, ¿no? Usé Standard y no Lightning, pero son muy parecidos.
00:05:34El tiempo de finalización de tareas es básicamente el mismo y la profundidad de razonamiento es comparable.
00:05:39Pero en costo, es muchísimo más barato. Ahí ya decides tú.
00:05:43Además, usa un 20 % menos de llamadas a herramientas y no desperdicia esos tokens, como dije antes.
00:05:47En flexibilidad, tiene pesos abiertos. Puedes desplegarlo localmente o ajustarlo a tu medida.
00:05:52Es cierto que Opus aún mantiene una ligera ventaja en lo más alto de la inteligencia premium.
00:05:57Ese sigue siendo el modelo de referencia con el que estamos trabajando.
00:06:00Pero esto importa porque ahora puedes ejecutar agentes a gran escala sin que el precio sea una carga.
00:06:05Como M2.5 tiene una tasa de éxito del 59 % en pruebas avanzadas de agentes, puedes crear bots de repositorios autónomos,
00:06:12usar agentes de programación persistentes o automatizar flujos empresariales. No es perfecto,
00:06:17pero es realmente bueno por lo que hemos visto. Y el precio te permitirá experimentar y ponerlo a prueba al máximo.
00:06:22Minimax está lanzando novedades rápido, pasando de ciclos de meses a semanas.
00:06:27Las integraciones con Ollama y GitHub ya están cogiendo ritmo.
00:06:32Minimax M2.5 ofrece un rendimiento de programación nivel Opus a un precio económico y con pesos abiertos.
00:06:38Esa combinación es rara, pero en 2026 quién sabe qué veremos. Puedes probarlo gratis en Minimax, usarlo en Ollama o pillar una API como hice yo.
00:06:43¿Será este el nuevo modelo por defecto para agentes de desarrollo? Supongo que veremos cómo evoluciona todo.
00:06:48Nos vemos en el próximo video.

Key Takeaway

Minimax M2.5 redefine la eficiencia en el desarrollo de software al ofrecer un rendimiento de nivel premium similar a Claude Opus a una décima parte del costo y con la flexibilidad de los pesos abiertos.

Highlights

Minimax M2.5 es un modelo de código abierto con 230 mil millones de parámetros diseñado para flujos de trabajo con agentes.

El modelo utiliza una arquitectura de "mezcla de expertos" (MoE) que solo activa 10 mil millones de parámetros durante la ejecución.

En términos de costo

Timeline

Introducción al modelo Minimax M2.5

El video comienza presentando el lanzamiento de Minimax M2.5, un modelo de programación que compite directamente con Claude Opus 4.6. Este modelo destaca por tener 230 mil millones de parámetros totales, aunque utiliza una arquitectura eficiente de mezcla de expertos que solo activa 10 mil millones en ejecución. Está diseñado específicamente para la creación de agentes de IA, copilotos y herramientas de automatización complejas. El narrador enfatiza que el modelo tiene pesos abiertos en Hugging Face, lo que elimina la dependencia de un solo proveedor. Esta sección es crucial porque establece la propuesta de valor basada en la reducción drástica de costos operativos para desarrolladores.

Comparativa práctica: Creación de un tablero Kanban

Se realiza una prueba real comparando a Minimax M2.5 con Claude Opus mediante la creación de una aplicación Kanban de stack completo. Mientras que Opus tardó 4 minutos y entregó una interfaz pulida con etiquetas detalladas, Minimax tardó 8 minutos pero logró una funcionalidad casi idéntica. El autor señala que, a pesar de la mayor lentitud en esta prueba específica, el costo fue diez veces menor, lo cual compensa la espera. Se mencionan pequeños fallos en la interfaz de Minimax, como la edición de descripciones que requirió un segundo intento. No obstante, el resultado final demuestra que el modelo es capaz de manejar tareas de programación complejas con un solo prompt.

Eficiencia técnica y optimización de agentes

Esta sección profundiza en las capacidades de razonamiento y descomposición de tareas mediante aprendizaje por refuerzo. El modelo M2.5 logra reducir las llamadas a herramientas en un 20% y el desperdicio de tokens en un 5% en comparación con versiones anteriores. Estas métricas son vitales para los desarrolladores de agentes, ya que las llamadas a herramientas suelen ser el componente más costoso y propenso a errores. Además, el sistema soporta ediciones de múltiples archivos, ciclos de depuración y almacenamiento en caché para reducir costos en consultas repetitivas. La compatibilidad nativa con Ollama y clústeres locales permite una integración fluida en infraestructuras de desarrollo profesional.

Análisis de benchmarks y rendimiento comparativo

El orador presenta datos técnicos donde M2.5 supera el 80% en el benchmark SWE-bench Verified, situándose a la par de Claude Opus 4.6. En otras pruebas como DROID, el modelo de Minimax incluso llega a superar a su competidor por un margen mínimo del 0.2%. Se destaca que la velocidad de procesamiento ha mejorado un 37% respecto a la versión M2.1, alcanzando hasta 100 tokens por segundo en su versión Lightning. Estos resultados posicionan al modelo en niveles de inteligencia similares a GPT-5 o Gemini 3 Pro. El análisis sugiere que los desarrolladores verán menos reintentos y procesos de integración continua más limpios gracias a este rendimiento.

Estructura de precios y conclusiones finales

El segmento final detalla la diferencia abismal de precios, donde la versión Standard de Minimax cuesta solo $0.15 por millón de tokens de entrada frente a los $5 de Claude Opus. El narrador explica que ejecutar el modelo durante una hora puede costar tan solo 30 centavos de dólar, lo que permite una experimentación masiva sin riesgos financieros. Aunque Opus mantiene una ligera ventaja en "inteligencia premium", la relación costo-beneficio de Minimax lo hace ideal para aplicaciones a gran escala. Se concluye que el modelo permite crear bots de repositorios autónomos y automatizaciones empresariales de forma rentable. El video cierra invitando a los usuarios a probar la API gratuita o la integración local para validar estas capacidades.

Community Posts

View all posts