O Claude Mythos FINALMENTE chegou (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00O Claude Mythos finalmente chegou.
00:00:01A Anthropic acaba de lançar um novo modelo chamado Fable 5,
00:00:03que é um modelo da classe Mythos,
00:00:05só que com muitas salvaguardas integradas,
00:00:07mas supera qualquer modelo que eles já lançaram,
00:00:09e possivelmente qualquer outro.
00:00:11Ele é estado da arte em quase todos os benchmarks.
00:00:13Obviamente, porém, isso definitivamente vai custar caro,
00:00:16e eles fizeram algo um pouco interessante
00:00:17com a precificação aqui
00:00:18que eu não acho que muitas pessoas vão gostar.
00:00:25Agora, normalmente, não gosto de gastar muito tempo
00:00:27nos benchmarks, mas esta tabela é meio insana.
00:00:30Os saltos que este modelo está dando
00:00:31em alguns desses benchmarks,
00:00:32e o fato de estar à frente em quase todos eles.
00:00:35Você pode ver que ele tem um salto de 10% em Argentic Coding
00:00:37no SWE Bench Pro,
00:00:39e está basicamente 20% à frente do GPT 5.5,
00:00:42e ele deu saltos semelhantes no benchmark Frontier Code.
00:00:44Frontier Code é na verdade um novo benchmark da Cognition,
00:00:47o pessoal por trás do Devin,
00:00:48que essencialmente testa o que teria mantido
00:00:49que realmente mesclou o código que este modelo produz.
00:00:52Neste gráfico, você pode ver que o Fable 5 está à frente
00:00:54de qualquer outro modelo,
00:00:55mesmo com um esforço de raciocínio médio,
00:00:57mas também acho que você pode ver que este modelo
00:00:58vai ser super caro.
00:01:00Ele também é marginalmente melhor no uso do computador,
00:01:02não um salto enorme,
00:01:03e o mesmo vale para o Terminal Bench na parte inferior,
00:01:05mas, novamente, como você pode ver,
00:01:06ele é líder em quase todas as categorias.
00:01:09Uma das maiores coisas, porém,
00:01:10que está se tornando cada vez mais relevante
00:01:11são as tarefas de longa execução.
00:01:12O Fable 5 aparentemente pode trabalhar por mais tempo
00:01:14do que qualquer outro modelo,
00:01:15e eles pediram à Stripe para testar isso,
00:01:17e aparentemente ele realizou uma migração em toda a base de código
00:01:18de uma base de código Ruby de 50 milhões de linhas
00:01:21em um único dia.
00:01:22Provavelmente ajudado pelo fato de que ele ficou
00:01:24muito melhor em memória e longo contexto também.
00:01:26Ele pode aparentemente manter o foco através de milhões
00:01:28de tokens em tarefas de longa execução,
00:01:29e ele melhora suas próprias saídas
00:01:31usando suas próprias notas.
00:01:32Agora, além de apenas programar,
00:01:33suas capacidades de visão também são muito impressionantes.
00:01:36Aparentemente, ele pode vencer o Pokemon Fire Red
00:01:37com um sistema de visão mínima agora,
00:01:39enquanto anteriormente eles tinham que dar ferramentas adicionais a ele,
00:01:42e ele ainda mal vencia,
00:01:43mas agora ele não tem problemas.
00:01:45Ele também aparentemente fará um site de uma só vez
00:01:47a partir de uma captura de tela.
00:01:48Eu realmente testei isso usando o site da Linear,
00:01:50e ficou genuinamente um pouco confuso para mim
00:01:52qual é qual aqui,
00:01:53mas aquele à direita é o que
00:01:55o Fable 5 gerou
00:01:56a partir de apenas uma captura de tela do site da Linear.
00:01:58Ele não usou pesquisa na web ou nada do tipo,
00:02:00eu apenas dei a ele uma captura de tela completa desta página,
00:02:02e eu diria que ele fez um trabalho incrível nisso.
00:02:05Todas as capturas de tela, tudo,
00:02:06foi gerado com código,
00:02:08e você pode ver que ele fez um trabalho muito, muito bom.
00:02:10São coisas como as animações SVG
00:02:12que não vão ficar perfeitas,
00:02:14mas no geral, eu diria que estou bem feliz
00:02:15com a maneira como ele recriou este site,
00:02:18e ele acertou praticamente todas as seções,
00:02:20ou pelo menos me levou a um ponto
00:02:21onde eu poderia então iterar sobre ele
00:02:22para deixá-lo exatamente como eu quero.
00:02:24Enquanto estamos aqui,
00:02:24eu também decidi testar esses modelos
00:02:25construindo um front-end e um back-end
00:02:27para um aplicativo de painel financeiro
00:02:28a partir de uma pasta completamente vazia em um único tiro,
00:02:31e é isso que o Fable 5 me deu.
00:02:33Eu testei tudo,
00:02:34tudo está funcionando,
00:02:35ele fala com a API,
00:02:37e, no geral, o design parece muito bom.
00:02:39É realmente utilizável,
00:02:40mas é aquela estética
00:02:41que os modelos Claude parecem estar dando recentemente.
00:02:43Podemos ver isso no resultado
00:02:44que o Opus 4.8 me deu também.
00:02:45Novamente, acho que este site parece muito bom,
00:02:47e para ser honesto com você,
00:02:48eu diria que isso parece melhor do que o do Fable 5,
00:02:50mas, novamente, tem aquela estética
00:02:51na qual o Claude foi treinado,
00:02:53mas isso também é culpa minha.
00:02:54Não instruí isso para seguir nenhum design específico.
00:02:56Tenho certeza de que, se tivesse,
00:02:57ele teria feito um ótimo trabalho.
00:02:58Se compararmos isso com o que o GPT 5.5 me deu,
00:03:00porém,
00:03:01você pode ver que nem chega perto.
00:03:03Isso foi a partir de um único prompt,
00:03:04o mesmo prompt exato,
00:03:05e eles estão simplesmente muito atrás em design de UI,
00:03:07na minha opinião.
00:03:08Eu realmente espero que o próximo modelo do GPT
00:03:10faça algo a respeito disso.
00:03:11O Fable 5 realmente me surpreendeu nesse teste
00:03:13por ser o mais rápido.
00:03:14Levou cerca de oito minutos
00:03:15para terminar aquele painel financeiro,
00:03:17enquanto o Opus levou 12 minutos,
00:03:18e o GPT 5.5 levou 15 minutos
00:03:20para fazer aquela aberração.
00:03:22Além apenas das minhas demonstrações,
00:03:23uma das minhas favoritas foi a Anthropic,
00:03:24mostrando o Fable 5 construindo um modelo CAD imprimível em 3D
00:03:27em um editor CAD baseado no navegador
00:03:28que o próprio Fable 5 também fez.
00:03:31Tipo, construir seu próprio mini-software
00:03:32é tão possível agora,
00:03:34e o mesmo vale para medicamentos.
00:03:36Aparentemente, este modelo é muito bom em design de medicamentos,
00:03:38mas você provavelmente não precisa saber sobre isso,
00:03:40e sim, é definitivamente protegido,
00:03:43como é basicamente qualquer coisa
00:03:44que se aproxime da segurança cibernética,
00:03:45a menos que você seja uma das empresas
00:03:46naquele programa especial.
00:03:48O Fable 5 aparentemente será muito cauteloso,
00:03:51o que significa que ele terá
00:03:51alguns poucos falsos positivos,
00:03:53aparentemente menos de 5% das mensagens,
00:03:55mas isso ainda me parece muito alto,
00:03:57e eu já encontrei salvaguardas do Opus antes,
00:03:59então este provavelmente será pior.
00:04:01Aparentemente, porém,
00:04:02em vez de apenas dizer não diretamente,
00:04:04ele tentará enviar sua solicitação
00:04:05ao Opus 4.8 primeiro
00:04:06para ver se é seguro para aquele modelo fazer o trabalho,
00:04:09mas, novamente, já encontrei essas salvaguardas antes,
00:04:11então não tenho certeza de quão bem isso vai funcionar.
00:04:13Este benchmark realmente mostra
00:04:14o quão insanas essas salvaguardas podem ser.
00:04:17Testando em avaliações cibernéticas,
00:04:19o Fable 5 com suas salvaguardas
00:04:20passa em zero desses testes.
00:04:22Ele simplesmente se recusa a fazer qualquer coisa,
00:04:24e como eu disse antes,
00:04:25se o Opus às vezes me rejeita
00:04:27com uma taxa de aprovação de 88% neste teste,
00:04:29vejo muitas pessoas
00:04:30encontrando salvaguardas com o Mythos.
00:04:32A última coisa a discutir então
00:04:33é a precificação,
00:04:34e é aqui que as coisas ficam um pouco interessantes.
00:04:37São $10 por um milhão de tokens de entrada,
00:04:39e $50 por um milhão de tokens de saída,
00:04:41o que eu realmente não acho tão ruim,
00:04:42não é o pior que já vimos,
00:04:44mas o que eu não gosto particularmente
00:04:45é este próximo bloco.
00:04:47O Fable 5 está disponível a partir de hoje
00:04:48nos planos Pro Max, team e enterprise,
00:04:50mas depois, em algumas semanas,
00:04:52em 23 de junho,
00:04:53eles essencialmente vão acabar com o plano Plus
00:04:54e retirar esses modelos,
00:04:56e depois disso,
00:04:56será necessário créditos de uso.
00:04:58Então, depois disso,
00:04:59eles dizem que vão adicionar esses modelos
00:05:01de volta a esses planos
00:05:02em alguma data indeterminada.
00:05:04Parece uma maneira estranha de fazer as coisas,
00:05:05e suponho que o objetivo deles
00:05:06seja viciar você nesses modelos,
00:05:08e então tirá-los de você,
00:05:09e fazer você gastar mais dinheiro neles,
00:05:11e acho que isso sinaliza
00:05:12o quão caros esses modelos são
00:05:13para eles operarem.
00:05:14Ah, e ele também usa seus limites
00:05:16duas vezes mais rápido que o Opus,
00:05:17então eu provavelmente não definiria isso
00:05:18como seu modelo principal
00:05:19a menos que você seja algum tipo de bilionário.
00:05:21A nota de rodapé final
00:05:21que eu acho interessante
00:05:23é a nova política de retenção de dados deles.
00:05:25Para usar esses modelos,
00:05:25eles realmente exigem retenção de 30 dias
00:05:27de todo o tráfego
00:05:28tanto em ferramentas de primeira quanto de terceiros,
00:05:30e supostamente nenhum treinamento
00:05:31será feito nesses dados,
00:05:33é apenas novamente para tentar
00:05:34e bloquear ameaças de segurança.
00:05:35Então é isso,
00:05:36Mythos está finalmente aqui.
00:05:37O que você acha deste lançamento de modelo
00:05:39e do futuro do software?
00:05:40Deixe-me saber nos comentários abaixo.
00:05:41Enquanto estiver por lá, inscreva-se,
00:05:42e como sempre,
00:05:43vejo você no próximo.
00:05:44Tchau.

Key Takeaway

O Fable 5 estabelece um novo padrão de desempenho em codificação e visão computacional, mas impõe restrições severas de segurança, custos elevados e uma política de retenção de dados de 30 dias.

Highlights

  • O Fable 5, modelo da classe Mythos, supera o GPT 5.5 em 20% no benchmark Frontier Code.

  • Tarefas de longa execução incluem a migração de uma base de código Ruby de 50 milhões de linhas realizada em um único dia.

  • O modelo recria sites funcionais a partir de uma única captura de tela, sem necessidade de pesquisa web adicional.

  • A precificação é de US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída.

  • O uso de limites do Fable 5 é duas vezes mais rápido que o do modelo Opus 4.8.

  • A política de retenção de dados exige o armazenamento de todo o tráfego por 30 dias para fins de segurança.

Timeline

Desempenho e Capacidades do Fable 5

  • O Fable 5 lidera quase todas as categorias em benchmarks, incluindo o SWE Bench Pro.
  • O modelo apresenta um ganho de 20% em relação ao GPT 5.5 no benchmark Frontier Code.
  • A capacidade de execução em tarefas complexas é superior à de modelos anteriores.

O modelo integra diversas salvaguardas enquanto mantém o status de estado da arte em testes técnicos. O benchmark Frontier Code, desenvolvido pela Cognition, valida a eficácia da produção e mesclagem de código do modelo, mesmo com esforço de raciocínio médio.

Aplicações Práticas e Visão Computacional

  • A migração de sistemas massivos, como uma base de 50 milhões de linhas de código, ocorre em um único dia.
  • A reconstrução de interfaces de sites a partir de capturas de tela alcança alta fidelidade de design.
  • O Fable 5 completa tarefas de desenvolvimento de painéis financeiros em 8 minutos, contra 12 do Opus e 15 do GPT 5.5.

O foco em tarefas de longa execução é sustentado pela capacidade de manter foco em milhões de tokens. Além de programar, o modelo demonstra eficiência na recriação de interfaces complexas e na execução de automações de visão que dispensam ferramentas externas.

Segurança, Custos e Políticas de Uso

  • Salvaguardas rígidas provocam recusas frequentes em testes de segurança cibernética.
  • O plano de precificação adotado elimina o acesso via planos Plus a partir de 23 de junho.
  • O uso consome limites de tokens duas vezes mais rápido que o modelo Opus 4.8.

A estratégia de lançamento inclui a remoção do modelo dos planos de assinatura padrão, exigindo créditos de uso futuros. A exigência de retenção de dados por 30 dias visa conter ameaças de segurança, embora o modelo apresente uma alta taxa de falsos positivos devido à sua cautela extrema.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video