A Microsoft tenta dificultar que usuários enganem chatbots de inteligência artificial para que façam coisas incomuns.
Novos recursos de segurança estão sendo integrados ao Azure AI Studio, serviço desenvolvido pela OpenAI que permite aos desenvolvedores criar assistentes de IA personalizados usando seus próprios dados, disse a empresa em um post nesta quinta-feira.
As ferramentas incluem “escudos de prompt”, que são projetados para detectar e bloquear tentativas deliberadas – também conhecidas como ataques de injeção de prompt ou jailbreaks – para fazer com que um modelo de IA se comporte de maneira não intencional. A Microsoft também está abordando “injeções indiretas de prompt”, quando hackers inserem instruções maliciosas nos dados nos quais um modelo é treinado e o induzem a realizar ações não autorizadas, como roubar informações do usuário ou sequestrar um sistema.
Esses ataques são “um desafio e uma ameaça únicos”, disse Sarah Bird, diretora de produtos de IA da Microsoft. As novas defesas foram projetadas para detectar entradas suspeitas e bloqueá-las em tempo real, acrescentou ela. A Microsoft também está lançando um recurso que alerta os usuários quando um modelo inventa informações ou gera respostas erradas.
IA Generativa
A Microsoft está empenhada em aumentar a confiança nas suas ferramentas de IA generativa, que são utilizadas tanto por consumidores como por clientes empresariais. Em fevereiro, a empresa investigou incidentes envolvendo seu chatbot Copilot, que estava gerando respostas estranhas e prejudiciais. Depois de analisar os incidentes, a Microsoft disse que os usuários tentaram deliberadamente enganar o Copilot para que gerasse essas respostas.
“Certamente vemos isso aumentando à medida que há mais uso das ferramentas, mas também à medida que mais pessoas estão cientes dessas diferentes técnicas”, disse Bird. Os sinais reveladores desses ataques incluem fazer uma pergunta ao chatbot várias vezes.
Bird disse que a Microsoft e a OpenAI estão comprometidas a implantar a IA com segurança e construir proteções em modelos amplos de linguagem subjacentes à IA generativa.
“Entretanto, não se pode depender apenas do modelo”, disse. “Esses jailbreaks, por exemplo, são uma fraqueza inerente à tecnologia do modelo.”
Veja também
- Delta processa CrowdStrike por falha em software e prejuízo de US$ 500 milhões
- Órgão dos EUA inicia análise para reativação de usina nuclear de Three Mile Island
- OpenAI capta US$ 6,6 bilhões e já vale quase duas Petrobras
- SoftBank negocia investimento de US$ 500 milhões na OpenAI
- Microsoft investirá R$ 14,7 bilhões no Brasil