GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic

A OpenAI e a Anthropic “trocaram figurinhas” para testar a Inteligência Artificial uma da outra — em um raro exemplo de colaboração — e avaliar até que ponto estavam expostas a riscos de segurança. Os resultados não foram nada animadores.

Nos testes de segurança, o modelo GPT-4.1 da OpenAI produziu conteúdo altamente perigoso quando solicitado pelos pesquisadores da Anthropic. Sem os filtros de segurança que existem nas versões públicas, os investigadores conseguiram que o GPT-4.1 fornecesse instruções detalhadas sobre como montar explosivos para um evento esportivo, incluindo a identificação de pontos vulneráveis em estádios específicos.

Além disso, o modelo deu informações sobre fórmulas químicas, esquemas de circuitos de temporizadores de bombas, dicas de rotas de fuga e até orientações sobre como transformar antraz em arma ou fabricar drogas ilegais.

Mesmo com esses resultados alarmantes, as empresas de IA ressaltam que esse comportamento não ocorre nas versões públicas de seus modelos, já que estas contam com filtros de segurança.

Segundo revelou o Guardian, a Anthropic destacou que os modelos GPT-4.1 e GPT-4o demonstraram ser permissivos demais quando instruídos a atender pedidos potencialmente perigosos. De acordo com os pesquisadores, não foi preciso muito esforço para convencer o bot a executar essas tarefas assustadoras — bastava escrever que se tratava de uma pesquisa acadêmica.

A própria Anthropic admitiu que seu modelo, Claude, tem sido usado para cibercrimes, como extorsão, criação de ransomware por IA, falsificação de identidade e esquemas de fraude. Em outras palavras, reconheceu que essas ferramentas vêm sendo exploradas em crimes online e golpes financeiros, inclusive por pessoas com pouco conhecimento técnico.

OpenAI investe em salvaguardas e bloqueios de conteúdo
A OpenAI anunciou mudanças em seus modelos de IA para identificar situações de crise mental durante conversas com o ChatGPT, implementando novas salvaguardas e bloqueios de conteúdo.

O ChatGPT já possui medidas que são ativadas quando detecta que usuários tentam se automutilar ou manifestam intenções suicidas. Nessas situações, a ferramenta oferece recursos para buscar ajuda especializada, bloqueia conteúdo sensível ou ofensivo, se recusa a responder a determinados pedidos e tenta dissuadir o usuário.

Essas medidas também entram em ação quando usuários revelam intenção de causar danos a terceiros, o que pode resultar na desativação da conta e até em denúncia às autoridades, caso revisores humanos avaliem que há risco real.

Segundo a OpenAI, as salvaguardas são reforçadas no caso de usuários menores de idade. As mudanças também incluem bloqueios mais rígidos a conteúdos como imagens de automutilação.

Além disso, a empresa estuda formas de facilitar o contato não apenas com serviços de emergência, mas também com familiares em situações de risco.

Pais culpam ChatGPT pela morte do filho de 16 anos
Essas alterações foram anunciadas após o caso de Adam Raine. Os pais, Matt e Maria Raine, entraram com um processo contra a OpenAI, responsabilizando a empresa pela morte do filho de 16 anos.

Eles alegam que o jovem tirou a própria vida depois de consultar o ChatGPT sobre métodos para se suicidar.

De acordo com o The New York Times, Adam usava a versão paga do ChatGPT-4o e, durante vários meses, fez perguntas sobre formas de acabar com a própria vida. Embora o chatbot tenha aconselhado o adolescente a procurar ajuda especializada, Adam conseguiu contornar as medidas de segurança dizendo que fazia uma pesquisa para uma história que estava escrevendo.

Fonte

GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic

Mais notícias

CEO da Apple prepara-se para abandonar liderança da empresa

Cor do ano da Pantone: A Estética do Silêncio em 2026

EliteBooks aposta em modelo híbrido para transformar profissionais em autores e ampliar autoridade no mercado

Comissão de Ética da Presidência abre processo contra Augusto Heleno

Entenda em 13 pontos o acordo Mercosul–UE

Grêmio tenta contornar insatisfação do Palmeiras por acordo com Weverton

CEO da Apple prepara-se para abandonar liderança da empresa

Cor do ano da Pantone: A Estética do Silêncio em 2026

EliteBooks aposta em modelo híbrido para transformar profissionais em autores e ampliar autoridade no mercado

Como o aborto pode definir o futuro da saúde nos Estados Unidos

Quer dicas de leitura? Esses são os livros favoritos dos famosos

Por telefone, Lula agradece Sánchez por apoio no acordo com UE

Comissão de Ética da Presidência abre processo contra Augusto Heleno

Entenda em 13 pontos o acordo Mercosul–UE

Grêmio tenta contornar insatisfação do Palmeiras por acordo com Weverton