O Claude Mythos FINALMENTE chegou (Fable 5)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00O Claude Mythos finalmente chegou.

00:00:01A Anthropic acaba de lançar um novo modelo chamado Fable 5,

00:00:03que é um modelo da classe Mythos,

00:00:05só que com muitas salvaguardas integradas,

00:00:07mas supera qualquer modelo que eles já lançaram,

00:00:09e possivelmente qualquer outro.

00:00:11Ele é estado da arte em quase todos os benchmarks.

00:00:13Obviamente, porém, isso definitivamente vai custar caro,

00:00:16e eles fizeram algo um pouco interessante

00:00:17com a precificação aqui

00:00:18que eu não acho que muitas pessoas vão gostar.

00:00:25Agora, normalmente, não gosto de gastar muito tempo

00:00:27nos benchmarks, mas esta tabela é meio insana.

00:00:30Os saltos que este modelo está dando

00:00:31em alguns desses benchmarks,

00:00:32e o fato de estar à frente em quase todos eles.

00:00:35Você pode ver que ele tem um salto de 10% em Argentic Coding

00:00:37no SWE Bench Pro,

00:00:39e está basicamente 20% à frente do GPT 5.5,

00:00:42e ele deu saltos semelhantes no benchmark Frontier Code.

00:00:44Frontier Code é na verdade um novo benchmark da Cognition,

00:00:47o pessoal por trás do Devin,

00:00:48que essencialmente testa o que teria mantido

00:00:49que realmente mesclou o código que este modelo produz.

00:00:52Neste gráfico, você pode ver que o Fable 5 está à frente

00:00:54de qualquer outro modelo,

00:00:55mesmo com um esforço de raciocínio médio,

00:00:57mas também acho que você pode ver que este modelo

00:00:58vai ser super caro.

00:01:00Ele também é marginalmente melhor no uso do computador,

00:01:02não um salto enorme,

00:01:03e o mesmo vale para o Terminal Bench na parte inferior,

00:01:05mas, novamente, como você pode ver,

00:01:06ele é líder em quase todas as categorias.

00:01:09Uma das maiores coisas, porém,

00:01:10que está se tornando cada vez mais relevante

00:01:11são as tarefas de longa execução.

00:01:12O Fable 5 aparentemente pode trabalhar por mais tempo

00:01:14do que qualquer outro modelo,

00:01:15e eles pediram à Stripe para testar isso,

00:01:17e aparentemente ele realizou uma migração em toda a base de código

00:01:18de uma base de código Ruby de 50 milhões de linhas

00:01:21em um único dia.

00:01:22Provavelmente ajudado pelo fato de que ele ficou

00:01:24muito melhor em memória e longo contexto também.

00:01:26Ele pode aparentemente manter o foco através de milhões

00:01:28de tokens em tarefas de longa execução,

00:01:29e ele melhora suas próprias saídas

00:01:31usando suas próprias notas.

00:01:32Agora, além de apenas programar,

00:01:33suas capacidades de visão também são muito impressionantes.

00:01:36Aparentemente, ele pode vencer o Pokemon Fire Red

00:01:37com um sistema de visão mínima agora,

00:01:39enquanto anteriormente eles tinham que dar ferramentas adicionais a ele,

00:01:42e ele ainda mal vencia,

00:01:43mas agora ele não tem problemas.

00:01:45Ele também aparentemente fará um site de uma só vez

00:01:47a partir de uma captura de tela.

00:01:48Eu realmente testei isso usando o site da Linear,

00:01:50e ficou genuinamente um pouco confuso para mim

00:01:52qual é qual aqui,

00:01:53mas aquele à direita é o que

00:01:55o Fable 5 gerou

00:01:56a partir de apenas uma captura de tela do site da Linear.

00:01:58Ele não usou pesquisa na web ou nada do tipo,

00:02:00eu apenas dei a ele uma captura de tela completa desta página,

00:02:02e eu diria que ele fez um trabalho incrível nisso.

00:02:05Todas as capturas de tela, tudo,

00:02:06foi gerado com código,

00:02:08e você pode ver que ele fez um trabalho muito, muito bom.

00:02:10São coisas como as animações SVG

00:02:12que não vão ficar perfeitas,

00:02:14mas no geral, eu diria que estou bem feliz

00:02:15com a maneira como ele recriou este site,

00:02:18e ele acertou praticamente todas as seções,

00:02:20ou pelo menos me levou a um ponto

00:02:21onde eu poderia então iterar sobre ele

00:02:22para deixá-lo exatamente como eu quero.

00:02:24Enquanto estamos aqui,

00:02:24eu também decidi testar esses modelos

00:02:25construindo um front-end e um back-end

00:02:27para um aplicativo de painel financeiro

00:02:28a partir de uma pasta completamente vazia em um único tiro,

00:02:31e é isso que o Fable 5 me deu.

00:02:33Eu testei tudo,

00:02:34tudo está funcionando,

00:02:35ele fala com a API,

00:02:37e, no geral, o design parece muito bom.

00:02:39É realmente utilizável,

00:02:40mas é aquela estética

00:02:41que os modelos Claude parecem estar dando recentemente.

00:02:43Podemos ver isso no resultado

00:02:44que o Opus 4.8 me deu também.

00:02:45Novamente, acho que este site parece muito bom,

00:02:47e para ser honesto com você,

00:02:48eu diria que isso parece melhor do que o do Fable 5,

00:02:50mas, novamente, tem aquela estética

00:02:51na qual o Claude foi treinado,

00:02:53mas isso também é culpa minha.

00:02:54Não instruí isso para seguir nenhum design específico.

00:02:56Tenho certeza de que, se tivesse,

00:02:57ele teria feito um ótimo trabalho.

00:02:58Se compararmos isso com o que o GPT 5.5 me deu,

00:03:00porém,

00:03:01você pode ver que nem chega perto.

00:03:03Isso foi a partir de um único prompt,

00:03:04o mesmo prompt exato,

00:03:05e eles estão simplesmente muito atrás em design de UI,

00:03:07na minha opinião.

00:03:08Eu realmente espero que o próximo modelo do GPT

00:03:10faça algo a respeito disso.

00:03:11O Fable 5 realmente me surpreendeu nesse teste

00:03:13por ser o mais rápido.

00:03:14Levou cerca de oito minutos

00:03:15para terminar aquele painel financeiro,

00:03:17enquanto o Opus levou 12 minutos,

00:03:18e o GPT 5.5 levou 15 minutos

00:03:20para fazer aquela aberração.

00:03:22Além apenas das minhas demonstrações,

00:03:23uma das minhas favoritas foi a Anthropic,

00:03:24mostrando o Fable 5 construindo um modelo CAD imprimível em 3D

00:03:27em um editor CAD baseado no navegador

00:03:28que o próprio Fable 5 também fez.

00:03:31Tipo, construir seu próprio mini-software

00:03:32é tão possível agora,

00:03:34e o mesmo vale para medicamentos.

00:03:36Aparentemente, este modelo é muito bom em design de medicamentos,

00:03:38mas você provavelmente não precisa saber sobre isso,

00:03:40e sim, é definitivamente protegido,

00:03:43como é basicamente qualquer coisa

00:03:44que se aproxime da segurança cibernética,

00:03:45a menos que você seja uma das empresas

00:03:46naquele programa especial.

00:03:48O Fable 5 aparentemente será muito cauteloso,

00:03:51o que significa que ele terá

00:03:51alguns poucos falsos positivos,

00:03:53aparentemente menos de 5% das mensagens,

00:03:55mas isso ainda me parece muito alto,

00:03:57e eu já encontrei salvaguardas do Opus antes,

00:03:59então este provavelmente será pior.

00:04:01Aparentemente, porém,

00:04:02em vez de apenas dizer não diretamente,

00:04:04ele tentará enviar sua solicitação

00:04:05ao Opus 4.8 primeiro

00:04:06para ver se é seguro para aquele modelo fazer o trabalho,

00:04:09mas, novamente, já encontrei essas salvaguardas antes,

00:04:11então não tenho certeza de quão bem isso vai funcionar.

00:04:13Este benchmark realmente mostra

00:04:14o quão insanas essas salvaguardas podem ser.

00:04:17Testando em avaliações cibernéticas,

00:04:19o Fable 5 com suas salvaguardas

00:04:20passa em zero desses testes.

00:04:22Ele simplesmente se recusa a fazer qualquer coisa,

00:04:24e como eu disse antes,

00:04:25se o Opus às vezes me rejeita

00:04:27com uma taxa de aprovação de 88% neste teste,

00:04:29vejo muitas pessoas

00:04:30encontrando salvaguardas com o Mythos.

00:04:32A última coisa a discutir então

00:04:33é a precificação,

00:04:34e é aqui que as coisas ficam um pouco interessantes.

00:04:37São $10 por um milhão de tokens de entrada,

00:04:39e $50 por um milhão de tokens de saída,

00:04:41o que eu realmente não acho tão ruim,

00:04:42não é o pior que já vimos,

00:04:44mas o que eu não gosto particularmente

00:04:45é este próximo bloco.

00:04:47O Fable 5 está disponível a partir de hoje

00:04:48nos planos Pro Max, team e enterprise,

00:04:50mas depois, em algumas semanas,

00:04:52em 23 de junho,

00:04:53eles essencialmente vão acabar com o plano Plus

00:04:54e retirar esses modelos,

00:04:56e depois disso,

00:04:56será necessário créditos de uso.

00:04:58Então, depois disso,

00:04:59eles dizem que vão adicionar esses modelos

00:05:01de volta a esses planos

00:05:02em alguma data indeterminada.

00:05:04Parece uma maneira estranha de fazer as coisas,

00:05:05e suponho que o objetivo deles

00:05:06seja viciar você nesses modelos,

00:05:08e então tirá-los de você,

00:05:09e fazer você gastar mais dinheiro neles,

00:05:11e acho que isso sinaliza

00:05:12o quão caros esses modelos são

00:05:13para eles operarem.

00:05:14Ah, e ele também usa seus limites

00:05:16duas vezes mais rápido que o Opus,

00:05:17então eu provavelmente não definiria isso

00:05:18como seu modelo principal

00:05:19a menos que você seja algum tipo de bilionário.

00:05:21A nota de rodapé final

00:05:21que eu acho interessante

00:05:23é a nova política de retenção de dados deles.

00:05:25Para usar esses modelos,

00:05:25eles realmente exigem retenção de 30 dias

00:05:27de todo o tráfego

00:05:28tanto em ferramentas de primeira quanto de terceiros,

00:05:30e supostamente nenhum treinamento

00:05:31será feito nesses dados,

00:05:33é apenas novamente para tentar

00:05:34e bloquear ameaças de segurança.

00:05:35Então é isso,

00:05:36Mythos está finalmente aqui.

00:05:37O que você acha deste lançamento de modelo

00:05:39e do futuro do software?

00:05:40Deixe-me saber nos comentários abaixo.

00:05:41Enquanto estiver por lá, inscreva-se,

00:05:42e como sempre,

00:05:43vejo você no próximo.

00:05:44Tchau.

Key Takeaway

O Fable 5 estabelece um novo padrão de desempenho em codificação e visão computacional, mas impõe restrições severas de segurança, custos elevados e uma política de retenção de dados de 30 dias.

Highlights

O Fable 5, modelo da classe Mythos, supera o GPT 5.5 em 20% no benchmark Frontier Code.
Tarefas de longa execução incluem a migração de uma base de código Ruby de 50 milhões de linhas realizada em um único dia.
O modelo recria sites funcionais a partir de uma única captura de tela, sem necessidade de pesquisa web adicional.
A precificação é de US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída.
O uso de limites do Fable 5 é duas vezes mais rápido que o do modelo Opus 4.8.
A política de retenção de dados exige o armazenamento de todo o tráfego por 30 dias para fins de segurança.

Timeline

Desempenho e Capacidades do Fable 5

O Fable 5 lidera quase todas as categorias em benchmarks, incluindo o SWE Bench Pro.
O modelo apresenta um ganho de 20% em relação ao GPT 5.5 no benchmark Frontier Code.
A capacidade de execução em tarefas complexas é superior à de modelos anteriores.

O modelo integra diversas salvaguardas enquanto mantém o status de estado da arte em testes técnicos. O benchmark Frontier Code, desenvolvido pela Cognition, valida a eficácia da produção e mesclagem de código do modelo, mesmo com esforço de raciocínio médio.

Aplicações Práticas e Visão Computacional

A migração de sistemas massivos, como uma base de 50 milhões de linhas de código, ocorre em um único dia.
A reconstrução de interfaces de sites a partir de capturas de tela alcança alta fidelidade de design.
O Fable 5 completa tarefas de desenvolvimento de painéis financeiros em 8 minutos, contra 12 do Opus e 15 do GPT 5.5.

O foco em tarefas de longa execução é sustentado pela capacidade de manter foco em milhões de tokens. Além de programar, o modelo demonstra eficiência na recriação de interfaces complexas e na execução de automações de visão que dispensam ferramentas externas.

Segurança, Custos e Políticas de Uso

Salvaguardas rígidas provocam recusas frequentes em testes de segurança cibernética.
O plano de precificação adotado elimina o acesso via planos Plus a partir de 23 de junho.
O uso consome limites de tokens duas vezes mais rápido que o modelo Opus 4.8.

A estratégia de lançamento inclui a remoção do modelo dos planos de assinatura padrão, exigindo créditos de uso futuros. A exigência de retenção de dados por 30 dias visa conter ameaças de segurança, embora o modelo apresente uma alta taxa de falsos positivos devido à sua cautela extrema.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video