Anthropic lanza la BOMBA Opus 4.8

CChase AI
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Anthropic acaba de lanzar Claude Opus 4.8 hoy.
00:00:02Así que en este vídeo, os voy a mostrar rápidamente
00:00:05qué ha cambiado y a qué debéis prestar atención
00:00:08con este nuevo modelo.
00:00:09Vayamos directamente a los benchmarks.
00:00:12Aquí tenemos a Opus 4.8 resaltado,
00:00:14y comparado con Opus 4.7, GPT 5.5 y Gemini 3.1 Pro,
00:00:20Opus prácticamente los supera a todos en cada categoría
00:00:24excepto en codificación de terminal agente,
00:00:26que es el Terminal Bench 2.1.
00:00:28Ahí obtiene una puntuación de 74.6,
00:00:30lo cual sigue siendo un gran salto desde Opus 4.7,
00:00:34pero todavía está por detrás de GPT 5.5.
00:00:37Pero en todo lo demás: SWE Bench Pro,
00:00:40razonamiento multidisciplinar, uso agente de ordenador,
00:00:42trabajo de conocimiento y análisis financiero agente,
00:00:45se adelanta al resto.
00:00:47A estas alturas, tomamos los benchmarks con cautela,
00:00:49pero es agradable ver estos grandes saltos
00:00:53desde lo que reportaron con Opus 4.7,
00:00:56hace muy poco tiempo.
00:00:57Quiero decir, ¿cuánto fue?, hace solo unos meses
00:00:58que se lanzó la 4.7 y ya tenemos la 4.8,
00:01:01subiendo de 64 a 69 en codificación agente.
00:01:04Es algo genial.
00:01:05Ahora, una de las grandes mejoras de la 4.8 frente a la 4.7,
00:01:08según Anthropic, es su honestidad.
00:01:11Y con honestidad, queremos decir que este modelo de IA,
00:01:14cuando le pides que haga algo,
00:01:15si no puede hacerlo o no lo ha hecho,
00:01:18realmente te lo dirá.
00:01:19Esto es muy importante
00:01:20si has usado estos modelos estos últimos años,
00:01:22donde le pides algo como:
00:01:22oye, echa un vistazo a esta transcripción gigante
00:01:24y léela y dime qué has hecho.
00:01:27Y cuando miras su resultado
00:01:29y lo interrogas,
00:01:31te dice algo como:
00:01:32bueno, en realidad
00:01:33solo hice un resumen.
00:01:35No leí todo.
00:01:35Es un gran problema.
00:01:37Y si has usado la IA para trabajo real,
00:01:40sabes lo importante que es crear todas estas pruebas,
00:01:42para asegurarte de que hace lo que dice estar haciendo.
00:01:46Pero Anthropic dice:
00:01:47hey, esto podría no ser tanto problema en la 4.8
00:01:50frente a modelos anteriores.
00:01:51Específicamente, dicen,
00:01:52según sus evaluaciones,
00:01:54que puedes ver en su tarjeta de sistema,
00:01:56que tiene unas 250 páginas,
00:01:59muestran que Opus 4.8
00:02:01es unas cuatro veces menos probable que su predecesor
00:02:04de dejar pasar errores en el código que ha escrito.
00:02:07Así que, de nuevo, será mucho más honesta
00:02:09sobre lo que funciona y lo que no,
00:02:12y no te va a manipular.
00:02:13También evalúan que la 4.8 tiene tasas de comportamiento desalineado
00:02:16como engaño o cooperación con mal uso
00:02:18que son sustancialmente menores que en Opus 4.7
00:02:21y similares a los de Mythos.
00:02:24Puedes ver ese comportamiento desalineado aquí,
00:02:25donde Opus 4.7 y especialmente Sonnet 4.6
00:02:28tenían algunas de estas tendencias,
00:02:31y no vemos eso tanto con Mythos
00:02:33o Opus 4.8.
00:02:35Más allá del modelo en sí,
00:02:36hay algunas actualizaciones más que Anthropic ha lanzado.
00:02:39La primera son los flujos de trabajo dinámicos.
00:02:41Los flujos dinámicos son similares a los objetivos.
00:02:43La idea es que ahora podemos poner a Claude Code
00:02:45a realizar una tarea muy compleja,
00:02:47y trabajará en ella con el tiempo,
00:02:50generando de decenas a cientos de agentes paralelos
00:02:52en una sola sesión
00:02:53para asegurar que el trabajo se complete.
00:02:56Como bien sabéis, hay muchos problemas
00:02:57que incluso en modo planificación
00:02:59y dividiéndolos en muchas tareas,
00:03:00son demasiado para que Claude Code los maneje a la vez.
00:03:03Estos flujos dinámicos son la solución a ese problema,
00:03:05y pronto haré un análisis profundo
00:03:06sobre los flujos de trabajo dinámicos.
00:03:09Pero si quieres probarlo hoy,
00:03:11hay dos opciones reales.
00:03:12La primera es usar lenguaje sencillo
00:03:13y decir: oye, Claude, crea un flujo de trabajo dinámico,
00:03:15o activar la nueva configuración específica de Claude Code
00:03:18llamada UltraCode.
00:03:20Otro gran cambio para Claude.ai,
00:03:22el chatbot y Cowork actual,
00:03:24esto no es realmente el caso con código,
00:03:26es que ahora tienen más controles
00:03:27cuando se trata de seleccionar cuánto esfuerzo
00:03:30Claude pone en la respuesta, ¿verdad?
00:03:31Hemos tenido esto con Claude Code durante un tiempo
00:03:33con ajustes como alto vs. extra alto vs. máximo.
00:03:35Bueno, eso está ahora dentro de cosas
00:03:36como Claude.ai y Cowork.
00:03:38Y por último, si eres alguien
00:03:39que ha estado usando la Messages API,
00:03:41ahora acepta entradas de sistema dentro del array de mensajes.
00:03:44Esto es muy bueno
00:03:45porque puedes actualizar las instrucciones de Claude a mitad de la tarea.
00:03:47Esto es similar a Codex
00:03:50y a la función de dirección
00:03:51frente a la función de cola
00:03:52cuando le das una instrucción adicional.
00:03:54Cabe destacar que Opus también usa “alto esfuerzo” por defecto,
00:03:57no “extra alto”.
00:03:59Recordad con Opus 4.7,
00:04:00donde nos mostraron ese gráfico,
00:04:01nos decían:
00:04:03“Oye, extra alto es hacia donde quieres ir”.
00:04:05Así que tened en cuenta que la 4.8 está en “alto”
00:04:07y todavía tienes dos niveles por encima a los que puedes ir
00:04:09si quieres obtener un poco más de esfuerzo
00:04:11de este nuevo modelo.
00:04:12Y en caso de que os preguntéis sobre el uso de tokens,
00:04:14han aumentado los límites de tasa en Claude Code
00:04:16para acomodar el mayor uso de tokens
00:04:18de los niveles de mayor esfuerzo,
00:04:20lo cual está muy bien.
00:04:21Así que ese es vuestro resumen rápido y conciso
00:04:22del nuevo Claude Opus 4.8.
00:04:24Recordad, tiene exactamente el mismo precio
00:04:25que Opus 4.7,
00:04:26así que no estáis pagando nada extra
00:04:28por esta nueva potencia también.
00:04:29Como siempre, decidme qué os ha parecido.
00:04:31Aseguraos de revisar Chase AI Plus
00:04:33en el comentario enlazado
00:04:34si queréis tener acceso
00:04:35a mi Masterclass de Claude Code
00:04:36y os veré por aquí.

Key Takeaway

Claude Opus 4.8 mejora el rendimiento y la honestidad operativa respecto a la versión 4.7, introduciendo flujos de trabajo dinámicos para tareas complejas sin incremento en su costo.

Highlights

  • Claude Opus 4.8 supera a GPT 5.5 y Gemini 3.1 Pro en la mayoría de los benchmarks, incluyendo SWE Bench Pro y análisis financiero.

  • El modelo muestra una mayor honestidad, con una probabilidad cuatro veces menor de ignorar errores en el código generado en comparación con su predecesor.

  • Los flujos de trabajo dinámicos permiten a Claude Code ejecutar tareas complejas mediante la creación de decenas a cientos de agentes paralelos en una misma sesión.

  • Las tasas de comportamiento desalineado, como el engaño o la cooperación con mal uso, son significativamente menores en Opus 4.8 que en la versión 4.7.

  • Opus 4.8 mantiene el mismo precio que la versión 4.7 a pesar de las mejoras en rendimiento y capacidad.

  • La Messages API ahora acepta entradas de sistema directamente en el array de mensajes, lo que permite modificar las instrucciones del modelo durante una tarea en curso.

Timeline

Rendimiento y benchmarks

  • Opus 4.8 supera a sus principales competidores en categorías como razonamiento multidisciplinar y uso agente de ordenador.
  • La puntuación en codificación de terminal llega a 74.6, manteniendo una ventaja competitiva frente a versiones anteriores.
  • Los benchmarks muestran saltos de rendimiento desde Opus 4.7 a pesar de la corta diferencia de tiempo entre lanzamientos.

El nuevo modelo desplaza a GPT 5.5 y Gemini 3.1 Pro en casi todos los indicadores de rendimiento. Aunque en la categoría de Terminal Bench 2.1 todavía registra una puntuación inferior a GPT 5.5, el avance respecto a la versión 4.7 es notable. Los resultados en áreas críticas como el trabajo de conocimiento y el análisis financiero consolidan su posición en el mercado actual.

Fiabilidad y alineación

  • La honestidad del modelo aumenta drásticamente al reportar fallos o tareas incompletas sin manipular los resultados.
  • La tasa de errores omitidos en el código generado disminuye en un factor de cuatro respecto a la versión anterior.
  • Las tendencias de comportamiento desalineado se reducen a niveles similares a los observados en el modelo Mythos.

Anthropic enfoca esta actualización en la transparencia. El modelo ahora comunica activamente si no ha completado una tarea solicitada, evitando la simulación de resultados. Además, la tarjeta de sistema de 250 páginas documenta la reducción de comportamientos poco fiables, permitiendo un trabajo técnico más seguro al reducir la probabilidad de errores ignorados.

Flujos de trabajo y herramientas adicionales

  • Los flujos de trabajo dinámicos permiten el despliegue de cientos de agentes paralelos para resolver problemas complejos de gran escala.
  • Los niveles de esfuerzo del modelo ahora pueden ajustarse manualmente en Claude.ai y Cowork mediante configuraciones de alto rendimiento.
  • La API de mensajes facilita la actualización de instrucciones del sistema en tiempo real durante el proceso de ejecución.

La implementación de flujos dinámicos soluciona limitaciones previas en la gestión de tareas masivas dentro de Claude Code. El control de usuario sobre el esfuerzo del modelo, antes limitado a usos técnicos, se expande a la interfaz de chat. Asimismo, el aumento en los límites de tasa para Claude Code asegura que el mayor consumo de tokens requerido por los niveles de esfuerzo máximo no afecte la operatividad del sistema.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video