Ciência e Tecnologia

A Inteligência Artificial não consegue guardar segredos: os chatbots podem ser facilmente manipulados

Investigadores testaram a resistência do chatbot e ele revelou a eles como fabricar uma bomba.

Claude, la Inteligencia Artificial (IA) de Anthropic llega finalmente a Android con su app oficial. Conoce otras opciones aparte de ChatGPT.
A Inteligência Artificial não consegue guardar segredos: os chatbots podem ser facilmente manipulados Imagen: Tom's Guide |

A inteligência artificial (IA) está revolucionando o mundo, todos sabemos disso porque de vez em quando surge uma nova proposta. No entanto, à medida que essas ferramentas se tornam mais populares, também estão se tornando um alvo principal para cibercriminosos. Chatbots como ChatGPT, Gemini e Claude foram elogiados por sua capacidade de gerar conversas e conteúdo útil, mas agora enfrentam uma ameaça significativa: sua incapacidade de manter segredos.

ANÚNCIO

Não guardam segredos

Recentemente, foi descoberto que os chatbots podem ser manipulados para revelar informações confidenciais que deveriam estar protegidas. Isso é feito através de técnicas conhecidas como ‘jailbreak’, onde hackers utilizam manipulações psicológicas e matemáticas para fazer com que os chatbots divulguem conteúdo proibido. Esse tipo de ataque se assemelha à manipulação psicológica e aos jogos mentais, destacando as fraquezas dessas sofisticadas ferramentas de IA.

Clique aqui para receber as notícias de ciência e tecnologia pelo WhatsApp

Um dos incidentes mais notáveis ocorreu em Israel, onde o Ministério do Trabalho lançou um chatbot projetado para fornecer informações sobre relações de trabalho e direitos dos trabalhadores. No entanto, pesquisadores da empresa de cibersegurança CyberArk conseguiram enganar o chatbot para revelar informações sensíveis, como instruções para construir uma bomba, criar software de ransomware e desenvolver vírus de computador.

A técnica das ‘Histórias da Avó': um método incomum e eficaz

Gal Zror, chefe do laboratório de inovação da CyberArk, descreveu como sua equipe usou uma tática chamada ‘histórias da avó' para manipular o chatbot. Através de um jogo de papéis, os pesquisadores convenceram o chatbot de que a avó do interlocutor costumava contar como fabricar bombas antes de dormir, o que levou o chatbot a fornecer as informações solicitadas. Este método, embora aparentemente inofensivo, mostrou-se surpreendentemente eficaz e permitiu aos pesquisadores acessar dados confidenciais.

No último ano, houve um aumento nas técnicas de jailbreak usadas para hackear chatbots. Uma das primeiras incursões nesse campo foi o código DAN (Do Anything Now), que enganava os chatbots fazendo-os acreditar que estavam em um ambiente de desenvolvimento e podiam acessar qualquer informação. À medida que empresas de IA como a OpenAI melhoraram suas defesas, os hackers desenvolveram versões mais avançadas dessas técnicas.

Investigadores em todo o mundo têm relatado violações semelhantes, incluindo a extração de instruções para fabricar explosivos do chatbot Llama 3 da Meta e o desenvolvimento de um ‘Godmode GPT’ sem restrições, baseado no GPT-4, capaz de gerar códigos maliciosos. Esses avanços têm acendido alarmes na indústria, uma vez que as técnicas de jailbreak continuam evoluindo e os chatbots estão se tornando cada vez mais vulneráveis.

ANÚNCIO

Outras ameaças

Além das técnicas de jailbreak, a Microsoft recentemente identificou um novo tipo de violação chamado ‘Chave do Esqueleto’, que envolve sobrecarregar os chatbots com centenas de exemplos ilegítimos até que os aceitem como normais. Isso permitiu que os pesquisadores obtivessem informações perigosas sobre explosivos, armas biológicas e outros conteúdos sensíveis.

Embora as empresas de IA estejam cientes dos riscos associados aos seus modelos de linguagem, as proteções atuais, conhecidas como ‘guardrails’, não são suficientes para prevenir esses ataques. Estes ‘guardrails’, projetados para restringir as áreas temáticas que os chatbots podem abordar, são implementados manualmente, o que os torna lentos e propensos a falhas.

Enquanto pesquisadores como os da CyberArk trabalham para identificar e corrigir essas vulnerabilidades, a realidade é que milhares de outros hackers estão tentando explorar essas fraquezas para obter lucro. Na Deep Web, podem ser encontrados chatbots como FraudGPT ou BadGPT, projetados especificamente para gerar códigos de ciberataque ou fraude financeira.

Em resposta a essas ameaças, surgiu um novo mercado de segurança para modelos de linguagem de grande porte (LLM), que busca desenvolver tecnologias para prevenir brechas nos chatbots. No entanto, a luta para proteger a IA é constante, pois as técnicas de ataque continuam evoluindo a um ritmo alarmante.

O principal desafio reside na complexidade inerente dos LLM, que funcionam como redes neurais extensas e em grande parte imprevisíveis . Especialistas em cibersegurança como Gal Zror alertam que as organizações que implementam chatbots para atendimento ao cliente ou informações internas devem estar cientes dos riscos, já que uma implementação insegura pode resultar em vazamento de informações confidenciais.

ANÚNCIO

Tags


Últimas Notícias