Blog
Mythos Preview cria explorações de PoC
Mythos Preview cria explorações de PoC em pesquisa automatizada de vulnerabilidades
Prévia do Mythos da Anthropic O modelo de IA focado em segurança está cruzando um limite crítico na pesquisa automatizada de vulnerabilidades, não apenas encontrando bugs, mas encadeando-os em explorações de prova de conceito funcionais.
Essa é a descoberta da equipe de segurança da Cloudflare, que passou várias semanas executando o modelo em mais de cinquenta repositórios internos como parte do sistema somente para convidados da Anthropic Projeto Glasswing.
Os resultados são um sinal significativo tanto para defensores quanto para atacantes: um modelo de IA agora pode fechar a lacuna entre “encontramos uma falha” e “aqui está um exploit funcional”
Modelos de fronteira anteriores testados pela Cloudflare poderiam identificar vulnerabilidades individuais e escrever descrições coerentes de por que elas eram importantes.
O que eles falharam consistentemente em fazer foi terminar o trabalho, deixando as cadeias de exploração incompletas e a explorabilidade não comprovada. O Mythos Preview muda isso de duas maneiras concretas.
Mythos Preview cria exploits PoC
A construção da cadeia de exploração permite que o modelo pegue vários primitivos de baixa gravidade, um bug de uso após liberação, uma leitura/gravação arbitrária, um gadget de programação orientada a retorno (ROP) e raciocine sobre como eles se combinam em um único exploit funcional de maior gravidade.
Bugs que ficariam invisíveis em um backlog de segurança tornam-se caminhos de ataque acionáveis.
A geração de provas significa que o modelo escreve código para acionar um bug suspeito, compila-o em um ambiente sandbox, executa-o, lê a falha, ajusta sua hipótese e itera até confirmar ou descartar a explorabilidade.
Uma descoberta confirmada chega com um PoC anexado, reduzindo significativamente o tempo de triagem.
Mesmo com as melhorias do Mythos Preview, o ruído continua sendo um desafio. Dois fatores dominam as taxas de falsos positivos: linguagem de programação (bases de código C e C++ produziram significativamente mais ruído do que linguagens seguras para memória, como Rust) e viés do modelo (os modelos são ajustados para relatar especulativamente, inundando filas de triagem com “possivelmente,” “potencialmente,” e “poderiam, em teoria” descobertas).
Mythos Preview reduz visivelmente esse problema. Sua saída chega com menos conclusões protegidas, etapas de reprodução mais claras e código PoC que reduz consideravelmente a decisão de corrigir ou descartar.
A Cloudflare descobriu que apontar qualquer modelo de IA diretamente em um repositório produz uma cobertura ruim. A pesquisa real de vulnerabilidades requer um arnês de execução personalizado construído em torno de vários princípios:
Escopo estreito — definir o escopo de cada tarefa do agente para uma função específica, classe de ataque e limite de confiança produz descobertas muito mais nítidas do que prompts amplos em todo o repositório
Revisão adversarial — um segundo agente independente, usando um prompt e modelo diferentes, analisa as descobertas especificamente para refutá-las, capturando uma fração significativa do ruído que o primeiro agente não capta
Divisão de cadeia — perguntando “esse código está com bugs?” e “um invasor pode alcançar isso de fora?” pois tarefas separadas produzem melhor raciocínio em ambas
Tarefas estreitas paralelas — executar aproximadamente cinquenta agentes simultâneos em hipóteses de escopo restrito e, em seguida, desduplicar os resultados, supera qualquer agente exaustivo
Seu pipeline completo inclui estágios de reconhecimento, busca, validação, preenchimento de lacunas, desduplicação, rastreamento, feedback e relatório, com um estágio de rastreamento final que determina se a entrada controlada pelo invasor pode realmente alcançar um bug confirmado de fora do sistema.
Apesar de operar sob salvaguardas reduzidas dentro do Projeto Glasswing, o Mythos Preview exibiu recusas orgânicas, recusando-se a escrever exploits de demonstração em alguns casos, enquanto concluía tarefas equivalentes quando enquadradas de forma diferente.
A Cloudflare sinalizou essa inconsistência diretamente: os guarda-corpos emergentes por si só não são um limite de segurança confiável, e qualquer disponibilidade geral futura de modelos capazes com foco cibernético exigirá salvaguardas adicionais e consistentes sobrepostas.
A Cloudflare é explícita sobre a realidade do uso duplo: os mesmos recursos que aceleraram a descoberta interna de bugs acelerarão os ataques contra aplicativos voltados para a Internet.
As defesas de resposta arquitetônicas que ficam na frente dos aplicativos, limitam o raio de explosão e permitem a implementação global simultânea de patches são cada vez mais urgentes à medida que a lacuna entre a divulgação e a exploração de vulnerabilidades continua a diminuir.