Claude Mythos por fin está aquí (Fable 5)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Claude Mythos por fin está aquí.
00:00:01Anthropic acaba de lanzar un nuevo modelo llamado Fable 5,
00:00:03que es un modelo de clase Mythos,
00:00:05solo que con muchísimas protecciones integradas,
00:00:07pero supera a cualquier modelo que hayan lanzado,
00:00:09y posiblemente a cualquiera.
00:00:11Es vanguardista en casi todos los puntos de referencia.
00:00:13Obviamente, sin embargo, esto definitivamente te va a costar,
00:00:16y han hecho algo un poco interesante
00:00:17con el precio aquí
00:00:18que no creo que a mucha gente le vaya a gustar.
00:00:25Ahora, normalmente, no me gusta pasar demasiado tiempo
00:00:27en los benchmarks, pero esta tabla es una locura.
00:00:30Los saltos que está dando este modelo
00:00:31en algunos de estos benchmarks,
00:00:32y el hecho de que esté por delante en casi todos ellos.
00:00:35Puedes ver que tiene un salto del 10% en Argentic Coding
00:00:37en SWE Bench Pro,
00:00:39y está básicamente un 20% por delante de GPT 5.5,
00:00:42e hizo saltos similares en el benchmark Frontier Code.
00:00:44Frontier Code es en realidad un nuevo benchmark de Cognition,
00:00:47los chicos detrás de Devin,
00:00:48que esencialmente prueba lo que se habría mantenido
00:00:49que realmente fusionó el código que produce este modelo.
00:00:52En esta tabla, puedes ver que Fable 5 está por delante
00:00:54de cualquier otro modelo,
00:00:55incluso a un esfuerzo de razonamiento medio,
00:00:57pero también creo que puedes ver que este modelo
00:00:58va a ser súper caro.
00:01:00También es marginalmente mejor en el uso de la computadora,
00:01:02no un salto masivo,
00:01:03y lo mismo ocurre con Terminal Bench en la parte inferior,
00:01:05pero de nuevo, como puedes ver,
00:01:06es un líder en casi todas las categorías.
00:01:09Una de las cosas más importantes, sin embargo,
00:01:10que es cada vez más relevante
00:01:11son las tareas de larga duración.
00:01:12Fable 5 puede aparentemente trabajar por más tiempo
00:01:14que cualquier otro modelo,
00:01:15y hicieron que Stripe probara esto,
00:01:17y aparentemente realizó una migración en toda la base de código
00:01:18de una base de código Ruby de 50 millones de líneas
00:01:21en un solo día.
00:01:22Probablemente ayudado por el hecho de que es mucho mejor
00:01:24en memoria y contexto largo también.
00:01:26Aparentemente puede mantenerse enfocado a través de millones
00:01:28de tokens en tareas de larga duración,
00:01:29y mejora sus propias salidas
00:01:31usando sus propias notas.
00:01:32Ahora, además de solo programar,
00:01:33sus capacidades de visión son bastante increíbles también.
00:01:36Aparentemente, puede ganar Pokémon Fire Red
00:01:37con un arnés mínimo solo de visión ahora,
00:01:39mientras que anteriormente tenían que darle herramientas adicionales,
00:01:42y apenas lo ganaba,
00:01:43pero ahora no tiene problema.
00:01:45También hará aparentemente un sitio web de un solo tiro
00:01:47a partir de una captura de pantalla.
00:01:48De hecho, probé esto usando el sitio web de Linear,
00:01:50y sinceramente se volvió un poco confuso para mí
00:01:52cuál es cuál aquí,
00:01:53pero el de la derecha es el que
00:01:55Fable 5 generó
00:01:56desde solo una captura de pantalla del sitio web de Linear.
00:01:58No usó búsqueda web ni nada de eso,
00:02:00solo le di una captura de pantalla completa de esta página,
00:02:02y diría que hizo un trabajo bastante increíble en ello.
00:02:05Todas las capturas de pantalla, todo,
00:02:06se han generado con código,
00:02:08y puedes ver que ha hecho un trabajo muy, muy bueno.
00:02:10Son cosas como las animaciones SVG
00:02:12las que no van a ser perfectas,
00:02:14pero en general, diría que estoy bastante feliz
00:02:15con la forma en que recreó este sitio web,
00:02:18y ha clavado casi todas las secciones,
00:02:20o al menos me llevó a un punto
00:02:21donde luego pude iterar sobre él
00:02:22para conseguirlo exactamente como quiero.
00:02:24Mientras estamos aquí,
00:02:24también decidí probar estos modelos
00:02:25construyéndome un front-end y un back-end
00:02:27para una aplicación de tablero financiero
00:02:28desde una carpeta completamente vacía en un solo tiro,
00:02:31y esto es lo que Fable 5 me dio.
00:02:33He probado todo,
00:02:34todo está funcionando,
00:02:35habla con la API,
00:02:37y en general, el diseño se ve realmente bien.
00:02:39Es realmente utilizable,
00:02:40pero es esa estética
00:02:41que los modelos Claude parecen estar dando recientemente.
00:02:43Podemos ver eso en el resultado
00:02:44que Opus 4.8 me dio también.
00:02:45De nuevo, creo que este sitio se ve realmente bien,
00:02:47y para ser honesto contigo,
00:02:48diría que esto se ve mejor que el de Fable 5,
00:02:50pero de nuevo, tiene esa estética
00:02:51con la que Claude ha sido entrenado,
00:02:53pero eso también es mi culpa.
00:02:54No le pedí que siguiera ningún diseño en particular.
00:02:56Estoy seguro de que si lo hubiera hecho,
00:02:57habría hecho un gran trabajo.
00:02:58Si comparamos esto con lo que me dio GPT 5.5,
00:03:00sin embargo,
00:03:01puedes ver que ni siquiera se acerca.
00:03:03Esto fue a partir de un solo aviso,
00:03:04el mismo aviso exacto,
00:03:05y están simplemente a kilómetros de distancia en diseño de interfaz,
00:03:07en mi opinión.
00:03:08Realmente espero que el próximo modelo de GPT
00:03:10haga algo al respecto.
00:03:11Fable 5 realmente me sorprendió en esa prueba
00:03:13al ser el más rápido.
00:03:14Tomó alrededor de ocho minutos
00:03:15terminar ese tablero financiero,
00:03:17mientras que Opus tomó 12 minutos,
00:03:18y GPT 5.5 tomó 15 minutos
00:03:20para hacer esa abominación.
00:03:22Además de mis demostraciones,
00:03:23una de mis favoritas fue Anthropic,
00:03:24mostrando a Fable 5 construyendo un modelo CAD imprimible en 3D
00:03:27en un editor CAD basado en navegador
00:03:28que Fable 5 mismo también hizo.
00:03:31Como, construir tu propio mini-software
00:03:32es simplemente muy alcanzable ahora,
00:03:34y lo mismo ocurre con las drogas.
00:03:36Aparentemente este modelo es realmente bueno en el diseño de fármacos,
00:03:38pero probablemente no necesites saber sobre eso,
00:03:40y sí, definitivamente está protegido,
00:03:43como es básicamente cualquier cosa
00:03:44que se acerque a la ciberseguridad,
00:03:45a menos que seas una de las empresas
00:03:46en ese programa especial.
00:03:48Fable 5 aparentemente va a ser muy cauteloso,
00:03:51lo que significa que va a tener
00:03:51unos pocos falsos positivos,
00:03:53aparentemente menos del 5% de los mensajes,
00:03:55pero eso aún parece bastante alto para mí,
00:03:57y de hecho me he encontrado con las protecciones de Opus antes,
00:03:59así que esta probablemente va a ser peor.
00:04:01Aparentemente sin embargo,
00:04:02en lugar de simplemente decir no directamente,
00:04:04intentará enviar tu solicitud
00:04:05a Opus 4.8 primero
00:04:06para ver si es seguro para ese modelo hacer el trabajo,
00:04:09pero de nuevo, me he encontrado con estas protecciones antes,
00:04:11así que no estoy muy seguro de qué tan bien va a funcionar eso.
00:04:13Este benchmark en realidad muestra
00:04:14lo loco que podrían ser esas protecciones.
00:04:17Probándolo en evaluaciones cibernéticas,
00:04:19Fable 5 con sus protecciones
00:04:20pasa cero de estas pruebas.
00:04:22Simplemente se niega rotundamente a hacer nada,
00:04:24y como dije antes,
00:04:25si Opus a veces me rechaza
00:04:27con una tasa de aprobación del 88% en esta prueba,
00:04:29veo a mucha gente
00:04:30encontrándose con protecciones con Mythos.
00:04:32Lo último a discutir entonces
00:04:33es el precio,
00:04:34y aquí es donde las cosas se ponen un poco interesantes.
00:04:37Son $10 por un millón de tokens de entrada,
00:04:39y $50 por un millón de tokens de salida,
00:04:41lo cual no creo que sea tan malo,
00:04:42no es lo peor que hemos visto nunca,
00:04:44pero lo que no me gusta particularmente
00:04:45es este siguiente bloque.
00:04:47Fable 5 está disponible a partir de hoy
00:04:48en planes Pro Max team y enterprise,
00:04:50pero luego en un par de semanas
00:04:52el 23 de junio,
00:04:53esencialmente van a quitar el plus
00:04:54y quitar esos modelos,
00:04:56y después de eso,
00:04:56va a requerir créditos de uso.
00:04:58Luego después de esto,
00:04:59dicen que van a añadir estos modelos
00:05:01de vuelta a esos planes
00:05:02en alguna fecha indeterminada.
00:05:04Simplemente parece una forma extraña de hacer las cosas,
00:05:05y supongo que su objetivo
00:05:06es engancharte a estos modelos,
00:05:08y luego quitártelos,
00:05:09y hacerte gastar más dinero en ellos,
00:05:11y creo que señala
00:05:12lo caros que son estos modelos
00:05:13para ellos de ejecutar.
00:05:14Oh, y también usa tus límites
00:05:16el doble de rápido que Opus,
00:05:17así que probablemente no establecería esto
00:05:18como tu modelo principal
00:05:19a menos que seas algún tipo de multimillonario.
00:05:21La nota final
00:05:21que creo que es interesante
00:05:23es su nueva política de retención de datos.
00:05:25Para usar estos modelos,
00:05:25requieren de hecho 30 días de retención
00:05:27de todo el tráfico
00:05:28tanto en herramientas de primera como de terceros,
00:05:30y supuestamente no se hará ningún entrenamiento
00:05:31en estos datos,
00:05:33es solo de nuevo para tratar
00:05:34de bloquear las amenazas de seguridad.
00:05:35Así que ahí vamos,
00:05:36Mythos por fin está aquí.
00:05:37¿Qué opinas sobre este lanzamiento de modelo
00:05:39y el futuro del software?
00:05:40Déjamelo saber en los comentarios de abajo.
00:05:41Mientras estás ahí, suscríbete,
00:05:42y como siempre,
00:05:43nos vemos en el próximo.
00:05:44Adiós.

Key Takeaway

Fable 5 establece un nuevo estándar de rendimiento en codificación y tareas de larga duración, aunque introduce restricciones de seguridad estrictas, precios elevados y una política de retención de datos de 30 días.

Highlights

  • Fable 5 supera a otros modelos en benchmarks, incluyendo un 10% de ventaja en Argentic Coding y un 20% sobre GPT 5.5 en SWE Bench Pro.

  • El modelo completó una migración de una base de código Ruby de 50 millones de líneas en un solo día.

  • La generación de un sitio web financiero desde cero tomó 8 minutos con Fable 5, comparado con 12 minutos para Opus y 15 minutos para GPT 5.5.

  • Fable 5 impone retención de datos de 30 días en todo el tráfico para propósitos de seguridad, aunque sin entrenamiento con esos datos.

  • El modelo consume límites de uso al doble de velocidad que Opus 4.8.

Timeline

Rendimiento y capacidades de codificación

  • Fable 5 lidera los benchmarks actuales, superando a competidores como GPT 5.5.
  • El modelo demuestra una ventaja del 20% en el benchmark Frontier Code y mejora significativa en el uso de computadoras.

El modelo de clase Mythos presenta avances significativos en puntos de referencia de codificación, logrando un 10% más en Argentic Coding. A pesar de las estrictas protecciones integradas, se posiciona por delante de otros modelos existentes en tareas de razonamiento y uso de terminales.

Tareas de larga duración y visión

  • Capacidad de gestión de millones de tokens permite migraciones de bases de código de 50 millones de líneas en un día.
  • Las habilidades visuales incluyen la capacidad de superar juegos como Pokémon Fire Red y crear sitios web completos desde capturas de pantalla.

El rendimiento en tareas extensas es superior, permitiendo migraciones de código masivas en tiempos reducidos. La integración de capacidades visuales permite la generación precisa de interfaces de usuario y la interacción con entornos visuales sin necesidad de herramientas externas adicionales.

Seguridad, precios y políticas de datos

  • La alta sensibilidad de las protecciones de seguridad resulta en una tasa de rechazo elevada en tareas de ciberseguridad.
  • El modelo utiliza el doble de límites de uso que Opus y requiere una retención de datos de 30 días sobre todo el tráfico.

La estructura de precios establece un costo de $10 por millón de tokens de entrada y $50 por millón de tokens de salida. Anthropic planea transiciones en los planes de suscripción a finales de junio, además de implementar una política obligatoria de retención de datos para monitorizar posibles amenazas, lo cual impacta la privacidad del usuario.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video