Claude Mythos por fin está aquí (Fable 5)
BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology
Transcript
00:00:00Claude Mythos por fin está aquí.
00:00:01Anthropic acaba de lanzar un nuevo modelo llamado Fable 5,
00:00:03que es un modelo de clase Mythos,
00:00:05solo que con muchísimas protecciones integradas,
00:00:07pero supera a cualquier modelo que hayan lanzado,
00:00:09y posiblemente a cualquiera.
00:00:11Es vanguardista en casi todos los puntos de referencia.
00:00:13Obviamente, sin embargo, esto definitivamente te va a costar,
00:00:16y han hecho algo un poco interesante
00:00:17con el precio aquí
00:00:18que no creo que a mucha gente le vaya a gustar.
00:00:25Ahora, normalmente, no me gusta pasar demasiado tiempo
00:00:27en los benchmarks, pero esta tabla es una locura.
00:00:30Los saltos que está dando este modelo
00:00:31en algunos de estos benchmarks,
00:00:32y el hecho de que esté por delante en casi todos ellos.
00:00:35Puedes ver que tiene un salto del 10% en Argentic Coding
00:00:37en SWE Bench Pro,
00:00:39y está básicamente un 20% por delante de GPT 5.5,
00:00:42e hizo saltos similares en el benchmark Frontier Code.
00:00:44Frontier Code es en realidad un nuevo benchmark de Cognition,
00:00:47los chicos detrás de Devin,
00:00:48que esencialmente prueba lo que se habría mantenido
00:00:49que realmente fusionó el código que produce este modelo.
00:00:52En esta tabla, puedes ver que Fable 5 está por delante
00:00:54de cualquier otro modelo,
00:00:55incluso a un esfuerzo de razonamiento medio,
00:00:57pero también creo que puedes ver que este modelo
00:00:58va a ser súper caro.
00:01:00También es marginalmente mejor en el uso de la computadora,
00:01:02no un salto masivo,
00:01:03y lo mismo ocurre con Terminal Bench en la parte inferior,
00:01:05pero de nuevo, como puedes ver,
00:01:06es un líder en casi todas las categorías.
00:01:09Una de las cosas más importantes, sin embargo,
00:01:10que es cada vez más relevante
00:01:11son las tareas de larga duración.
00:01:12Fable 5 puede aparentemente trabajar por más tiempo
00:01:14que cualquier otro modelo,
00:01:15y hicieron que Stripe probara esto,
00:01:17y aparentemente realizó una migración en toda la base de código
00:01:18de una base de código Ruby de 50 millones de líneas
00:01:21en un solo día.
00:01:22Probablemente ayudado por el hecho de que es mucho mejor
00:01:24en memoria y contexto largo también.
00:01:26Aparentemente puede mantenerse enfocado a través de millones
00:01:28de tokens en tareas de larga duración,
00:01:29y mejora sus propias salidas
00:01:31usando sus propias notas.
00:01:32Ahora, además de solo programar,
00:01:33sus capacidades de visión son bastante increíbles también.
00:01:36Aparentemente, puede ganar Pokémon Fire Red
00:01:37con un arnés mínimo solo de visión ahora,
00:01:39mientras que anteriormente tenían que darle herramientas adicionales,
00:01:42y apenas lo ganaba,
00:01:43pero ahora no tiene problema.
00:01:45También hará aparentemente un sitio web de un solo tiro
00:01:47a partir de una captura de pantalla.
00:01:48De hecho, probé esto usando el sitio web de Linear,
00:01:50y sinceramente se volvió un poco confuso para mí
00:01:52cuál es cuál aquí,
00:01:53pero el de la derecha es el que
00:01:55Fable 5 generó
00:01:56desde solo una captura de pantalla del sitio web de Linear.
00:01:58No usó búsqueda web ni nada de eso,
00:02:00solo le di una captura de pantalla completa de esta página,
00:02:02y diría que hizo un trabajo bastante increíble en ello.
00:02:05Todas las capturas de pantalla, todo,
00:02:06se han generado con código,
00:02:08y puedes ver que ha hecho un trabajo muy, muy bueno.
00:02:10Son cosas como las animaciones SVG
00:02:12las que no van a ser perfectas,
00:02:14pero en general, diría que estoy bastante feliz
00:02:15con la forma en que recreó este sitio web,
00:02:18y ha clavado casi todas las secciones,
00:02:20o al menos me llevó a un punto
00:02:21donde luego pude iterar sobre él
00:02:22para conseguirlo exactamente como quiero.
00:02:24Mientras estamos aquí,
00:02:24también decidí probar estos modelos
00:02:25construyéndome un front-end y un back-end
00:02:27para una aplicación de tablero financiero
00:02:28desde una carpeta completamente vacía en un solo tiro,
00:02:31y esto es lo que Fable 5 me dio.
00:02:33He probado todo,
00:02:34todo está funcionando,
00:02:35habla con la API,
00:02:37y en general, el diseño se ve realmente bien.
00:02:39Es realmente utilizable,
00:02:40pero es esa estética
00:02:41que los modelos Claude parecen estar dando recientemente.
00:02:43Podemos ver eso en el resultado
00:02:44que Opus 4.8 me dio también.
00:02:45De nuevo, creo que este sitio se ve realmente bien,
00:02:47y para ser honesto contigo,
00:02:48diría que esto se ve mejor que el de Fable 5,
00:02:50pero de nuevo, tiene esa estética
00:02:51con la que Claude ha sido entrenado,
00:02:53pero eso también es mi culpa.
00:02:54No le pedí que siguiera ningún diseño en particular.
00:02:56Estoy seguro de que si lo hubiera hecho,
00:02:57habría hecho un gran trabajo.
00:02:58Si comparamos esto con lo que me dio GPT 5.5,
00:03:00sin embargo,
00:03:01puedes ver que ni siquiera se acerca.
00:03:03Esto fue a partir de un solo aviso,
00:03:04el mismo aviso exacto,
00:03:05y están simplemente a kilómetros de distancia en diseño de interfaz,
00:03:07en mi opinión.
00:03:08Realmente espero que el próximo modelo de GPT
00:03:10haga algo al respecto.
00:03:11Fable 5 realmente me sorprendió en esa prueba
00:03:13al ser el más rápido.
00:03:14Tomó alrededor de ocho minutos
00:03:15terminar ese tablero financiero,
00:03:17mientras que Opus tomó 12 minutos,
00:03:18y GPT 5.5 tomó 15 minutos
00:03:20para hacer esa abominación.
00:03:22Además de mis demostraciones,
00:03:23una de mis favoritas fue Anthropic,
00:03:24mostrando a Fable 5 construyendo un modelo CAD imprimible en 3D
00:03:27en un editor CAD basado en navegador
00:03:28que Fable 5 mismo también hizo.
00:03:31Como, construir tu propio mini-software
00:03:32es simplemente muy alcanzable ahora,
00:03:34y lo mismo ocurre con las drogas.
00:03:36Aparentemente este modelo es realmente bueno en el diseño de fármacos,
00:03:38pero probablemente no necesites saber sobre eso,
00:03:40y sí, definitivamente está protegido,
00:03:43como es básicamente cualquier cosa
00:03:44que se acerque a la ciberseguridad,
00:03:45a menos que seas una de las empresas
00:03:46en ese programa especial.
00:03:48Fable 5 aparentemente va a ser muy cauteloso,
00:03:51lo que significa que va a tener
00:03:51unos pocos falsos positivos,
00:03:53aparentemente menos del 5% de los mensajes,
00:03:55pero eso aún parece bastante alto para mí,
00:03:57y de hecho me he encontrado con las protecciones de Opus antes,
00:03:59así que esta probablemente va a ser peor.
00:04:01Aparentemente sin embargo,
00:04:02en lugar de simplemente decir no directamente,
00:04:04intentará enviar tu solicitud
00:04:05a Opus 4.8 primero
00:04:06para ver si es seguro para ese modelo hacer el trabajo,
00:04:09pero de nuevo, me he encontrado con estas protecciones antes,
00:04:11así que no estoy muy seguro de qué tan bien va a funcionar eso.
00:04:13Este benchmark en realidad muestra
00:04:14lo loco que podrían ser esas protecciones.
00:04:17Probándolo en evaluaciones cibernéticas,
00:04:19Fable 5 con sus protecciones
00:04:20pasa cero de estas pruebas.
00:04:22Simplemente se niega rotundamente a hacer nada,
00:04:24y como dije antes,
00:04:25si Opus a veces me rechaza
00:04:27con una tasa de aprobación del 88% en esta prueba,
00:04:29veo a mucha gente
00:04:30encontrándose con protecciones con Mythos.
00:04:32Lo último a discutir entonces
00:04:33es el precio,
00:04:34y aquí es donde las cosas se ponen un poco interesantes.
00:04:37Son $10 por un millón de tokens de entrada,
00:04:39y $50 por un millón de tokens de salida,
00:04:41lo cual no creo que sea tan malo,
00:04:42no es lo peor que hemos visto nunca,
00:04:44pero lo que no me gusta particularmente
00:04:45es este siguiente bloque.
00:04:47Fable 5 está disponible a partir de hoy
00:04:48en planes Pro Max team y enterprise,
00:04:50pero luego en un par de semanas
00:04:52el 23 de junio,
00:04:53esencialmente van a quitar el plus
00:04:54y quitar esos modelos,
00:04:56y después de eso,
00:04:56va a requerir créditos de uso.
00:04:58Luego después de esto,
00:04:59dicen que van a añadir estos modelos
00:05:01de vuelta a esos planes
00:05:02en alguna fecha indeterminada.
00:05:04Simplemente parece una forma extraña de hacer las cosas,
00:05:05y supongo que su objetivo
00:05:06es engancharte a estos modelos,
00:05:08y luego quitártelos,
00:05:09y hacerte gastar más dinero en ellos,
00:05:11y creo que señala
00:05:12lo caros que son estos modelos
00:05:13para ellos de ejecutar.
00:05:14Oh, y también usa tus límites
00:05:16el doble de rápido que Opus,
00:05:17así que probablemente no establecería esto
00:05:18como tu modelo principal
00:05:19a menos que seas algún tipo de multimillonario.
00:05:21La nota final
00:05:21que creo que es interesante
00:05:23es su nueva política de retención de datos.
00:05:25Para usar estos modelos,
00:05:25requieren de hecho 30 días de retención
00:05:27de todo el tráfico
00:05:28tanto en herramientas de primera como de terceros,
00:05:30y supuestamente no se hará ningún entrenamiento
00:05:31en estos datos,
00:05:33es solo de nuevo para tratar
00:05:34de bloquear las amenazas de seguridad.
00:05:35Así que ahí vamos,
00:05:36Mythos por fin está aquí.
00:05:37¿Qué opinas sobre este lanzamiento de modelo
00:05:39y el futuro del software?
00:05:40Déjamelo saber en los comentarios de abajo.
00:05:41Mientras estás ahí, suscríbete,
00:05:42y como siempre,
00:05:43nos vemos en el próximo.
00:05:44Adiós.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video