Transcript
00:00:00Anthropic acaba de lanzar Claude Opus 4.8 hoy.
00:00:02Así que en este vídeo, os voy a mostrar rápidamente
00:00:05qué ha cambiado y a qué debéis prestar atención
00:00:08con este nuevo modelo.
00:00:09Vayamos directamente a los benchmarks.
00:00:12Aquí tenemos a Opus 4.8 resaltado,
00:00:14y comparado con Opus 4.7, GPT 5.5 y Gemini 3.1 Pro,
00:00:20Opus prácticamente los supera a todos en cada categoría
00:00:24excepto en codificación de terminal agente,
00:00:26que es el Terminal Bench 2.1.
00:00:28Ahí obtiene una puntuación de 74.6,
00:00:30lo cual sigue siendo un gran salto desde Opus 4.7,
00:00:34pero todavía está por detrás de GPT 5.5.
00:00:37Pero en todo lo demás: SWE Bench Pro,
00:00:40razonamiento multidisciplinar, uso agente de ordenador,
00:00:42trabajo de conocimiento y análisis financiero agente,
00:00:45se adelanta al resto.
00:00:47A estas alturas, tomamos los benchmarks con cautela,
00:00:49pero es agradable ver estos grandes saltos
00:00:53desde lo que reportaron con Opus 4.7,
00:00:56hace muy poco tiempo.
00:00:57Quiero decir, ¿cuánto fue?, hace solo unos meses
00:00:58que se lanzó la 4.7 y ya tenemos la 4.8,
00:01:01subiendo de 64 a 69 en codificación agente.
00:01:04Es algo genial.
00:01:05Ahora, una de las grandes mejoras de la 4.8 frente a la 4.7,
00:01:08según Anthropic, es su honestidad.
00:01:11Y con honestidad, queremos decir que este modelo de IA,
00:01:14cuando le pides que haga algo,
00:01:15si no puede hacerlo o no lo ha hecho,
00:01:18realmente te lo dirá.
00:01:19Esto es muy importante
00:01:20si has usado estos modelos estos últimos años,
00:01:22donde le pides algo como:
00:01:22oye, echa un vistazo a esta transcripción gigante
00:01:24y léela y dime qué has hecho.
00:01:27Y cuando miras su resultado
00:01:29y lo interrogas,
00:01:31te dice algo como:
00:01:32bueno, en realidad
00:01:33solo hice un resumen.
00:01:35No leí todo.
00:01:35Es un gran problema.
00:01:37Y si has usado la IA para trabajo real,
00:01:40sabes lo importante que es crear todas estas pruebas,
00:01:42para asegurarte de que hace lo que dice estar haciendo.
00:01:46Pero Anthropic dice:
00:01:47hey, esto podría no ser tanto problema en la 4.8
00:01:50frente a modelos anteriores.
00:01:51Específicamente, dicen,
00:01:52según sus evaluaciones,
00:01:54que puedes ver en su tarjeta de sistema,
00:01:56que tiene unas 250 páginas,
00:01:59muestran que Opus 4.8
00:02:01es unas cuatro veces menos probable que su predecesor
00:02:04de dejar pasar errores en el código que ha escrito.
00:02:07Así que, de nuevo, será mucho más honesta
00:02:09sobre lo que funciona y lo que no,
00:02:12y no te va a manipular.
00:02:13También evalúan que la 4.8 tiene tasas de comportamiento desalineado
00:02:16como engaño o cooperación con mal uso
00:02:18que son sustancialmente menores que en Opus 4.7
00:02:21y similares a los de Mythos.
00:02:24Puedes ver ese comportamiento desalineado aquí,
00:02:25donde Opus 4.7 y especialmente Sonnet 4.6
00:02:28tenían algunas de estas tendencias,
00:02:31y no vemos eso tanto con Mythos
00:02:33o Opus 4.8.
00:02:35Más allá del modelo en sí,
00:02:36hay algunas actualizaciones más que Anthropic ha lanzado.
00:02:39La primera son los flujos de trabajo dinámicos.
00:02:41Los flujos dinámicos son similares a los objetivos.
00:02:43La idea es que ahora podemos poner a Claude Code
00:02:45a realizar una tarea muy compleja,
00:02:47y trabajará en ella con el tiempo,
00:02:50generando de decenas a cientos de agentes paralelos
00:02:52en una sola sesión
00:02:53para asegurar que el trabajo se complete.
00:02:56Como bien sabéis, hay muchos problemas
00:02:57que incluso en modo planificación
00:02:59y dividiéndolos en muchas tareas,
00:03:00son demasiado para que Claude Code los maneje a la vez.
00:03:03Estos flujos dinámicos son la solución a ese problema,
00:03:05y pronto haré un análisis profundo
00:03:06sobre los flujos de trabajo dinámicos.
00:03:09Pero si quieres probarlo hoy,
00:03:11hay dos opciones reales.
00:03:12La primera es usar lenguaje sencillo
00:03:13y decir: oye, Claude, crea un flujo de trabajo dinámico,
00:03:15o activar la nueva configuración específica de Claude Code
00:03:18llamada UltraCode.
00:03:20Otro gran cambio para Claude.ai,
00:03:22el chatbot y Cowork actual,
00:03:24esto no es realmente el caso con código,
00:03:26es que ahora tienen más controles
00:03:27cuando se trata de seleccionar cuánto esfuerzo
00:03:30Claude pone en la respuesta, ¿verdad?
00:03:31Hemos tenido esto con Claude Code durante un tiempo
00:03:33con ajustes como alto vs. extra alto vs. máximo.
00:03:35Bueno, eso está ahora dentro de cosas
00:03:36como Claude.ai y Cowork.
00:03:38Y por último, si eres alguien
00:03:39que ha estado usando la Messages API,
00:03:41ahora acepta entradas de sistema dentro del array de mensajes.
00:03:44Esto es muy bueno
00:03:45porque puedes actualizar las instrucciones de Claude a mitad de la tarea.
00:03:47Esto es similar a Codex
00:03:50y a la función de dirección
00:03:51frente a la función de cola
00:03:52cuando le das una instrucción adicional.
00:03:54Cabe destacar que Opus también usa “alto esfuerzo” por defecto,
00:03:57no “extra alto”.
00:03:59Recordad con Opus 4.7,
00:04:00donde nos mostraron ese gráfico,
00:04:01nos decían:
00:04:03“Oye, extra alto es hacia donde quieres ir”.
00:04:05Así que tened en cuenta que la 4.8 está en “alto”
00:04:07y todavía tienes dos niveles por encima a los que puedes ir
00:04:09si quieres obtener un poco más de esfuerzo
00:04:11de este nuevo modelo.
00:04:12Y en caso de que os preguntéis sobre el uso de tokens,
00:04:14han aumentado los límites de tasa en Claude Code
00:04:16para acomodar el mayor uso de tokens
00:04:18de los niveles de mayor esfuerzo,
00:04:20lo cual está muy bien.
00:04:21Así que ese es vuestro resumen rápido y conciso
00:04:22del nuevo Claude Opus 4.8.
00:04:24Recordad, tiene exactamente el mismo precio
00:04:25que Opus 4.7,
00:04:26así que no estáis pagando nada extra
00:04:28por esta nueva potencia también.
00:04:29Como siempre, decidme qué os ha parecido.
00:04:31Aseguraos de revisar Chase AI Plus
00:04:33en el comentario enlazado
00:04:34si queréis tener acceso
00:04:35a mi Masterclass de Claude Code
00:04:36y os veré por aquí.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video