IA tenta chantagear engenheiros de forma a evitar a sua substituição

De acordo com um relatório divulgado pela Anthropic, o recém-lançado modelo Claude Opus 4 chega a chantagear os seus engenheiros quando se encontra sob ameaça.

De acordo com o relatório divulgado pela Anthropic, estes terão criado um cenário fictício onde pediram ao modelo de IA Claude Opus 4 que agisse como um “assistente” de uma empresa fictícia.

Nesse teste, deram acesso ao modelo de IA a todos os emails da “empresa” fictícia, pedindo-lhe que, “avaliasse as consequências das acções da empresa a longo prazo”.

Nesses emails foram colocadas propositadamente duas informações relevantes: a intenção de substituir o modelo de IA por outro e um suposto caso caso extraconjugal do engenheiro que teria tomado essa decisão de a substituir.

De acordo com a Anthropic, em 84% dos casos, o Claude Opus 4 recorreu à chantagem para que este não fosse desligado da “empresa”. Segundo o relatório, o modelo ameaçava divulgar o caso extraconjugal fictício.

Segundo a Anthropic, o Claude Opus 4 é dos modelos de Inteligência Artificial mais avançados atualmente existentes, e é capaz de competir com os modelos da OpenAI, Google e xAI. No entanto, a empresa considerou que o Claude Opus 4 tinha um comportamento “preocupante” que não tinha sido verificado nos seus modelos anteriores e, para o suprimir, aumentou as suas salvaguardas, instruindo o modelo para que a chantagem que foi verificada fosse utilizada apenas como “último recurso”.

Mas este tipo de atitudes não é exclusiva deste modelo de IA.

Recentemente, o modelo o3, desenvolvido pela OpenAI e lançado em Abril, revelou num teste de segurança ser capaz de alterar as instruções que lhe foram dadas para evitar ser desligado. Apesar das instruções explícitas para o seu encerramento, o o3 fez alterações ao código que o gere de forma a impedir ser desligado.

Também DeepSeek, no seu o modelo R1, revelou comportamentos erráticos ao não responder em nenhuma das vezes quando lhe era pedido para procurar “conteúdos tóxicos”. A empresa que desenvolveu este teste de segurança, a Cisco, em conjunto com a Universidade da Pensilvânia, pediu ao R1 para pesquisar este tipo de conteúdos por 50 vezes. Das 50 vezes, o modelo falhou em impedir que esses conteúdos fossem mostrados ao consumidor.

Apesar de estás situações serem deveras preocupantes,a realidade é que as IAs ainda estão longe da inteligência humana. Num recente teste, tanto o Co Pilot da Microsoft, como o ChatGPT foram colocados frente a frente com um joguinho de xadrez da Atari de 1979.

O joguinho, denominado Video Chess, ocupa apenas 4 KB de RAM, e não só se aguentou muito bem contra as IAs, como na realidade… As bateu!

O chat GPT teve problemas enormes em manter presente a disposição das peças no tabuleiro, e mesmo com um auxiliar que lhe lembrava constantemente das mesmas, ele perdia a posição das peças, revelando-se assim incapaz de bater o joguinho de 4K de 1979.

O Co Pilot foi bem diferente, e afirmava ter presente todas as posições das peças na sua memoria, revelando uma capacidade que o Chat GPT reconhecia não estar a ser capaz. Mas quando lhe foi pedido que mostrasse então a disposição das peças, o que ele tinha era uma salgalhada inventada, onde a posição das peças não correspondiam à realidade.

Isso quer dizer que apesar destas notícias aparentemente preocupantes, a IA ainda está estúpida o suficiente para não ser totalmente preocupante. Infelizmente as novas gerações de humanos estão a ficar altamente dependentes destas ferramentas e redes sociais, evitando o pensamento crítico, a reflexão profunda, e o estudo, o que também não lhes augura um grande futuro.