Novos recursos de segurança estão sendo integrados ao Azure AI Studio, serviço desenvolvido pela OpenAI que permite aos desenvolvedores criar assistentes de IA personalizados usando seus próprios dados, disse a empresa em um post nesta quinta-feira.
As ferramentas incluem “escudos de prompt”, que são projetados para detectar e bloquear tentativas deliberadas – também conhecidas como ataques de injeção de prompt ou jailbreaks – para fazer com que um modelo de IA se comporte de maneira não intencional. A Microsoft também está abordando “injeções indiretas de prompt”, quando hackers inserem instruções maliciosas nos dados nos quais um modelo é treinado e o induzem a realizar ações não autorizadas, como roubar informações do usuário ou sequestrar um sistema.
Esses ataques são “um desafio e uma ameaça únicos”, disse Sarah Bird, diretora de produtos de IA da Microsoft. As novas defesas foram projetadas para detectar entradas suspeitas e bloqueá-las em tempo real, acrescentou ela. A Microsoft também está lançando um recurso que alerta os usuários quando um modelo inventa informações ou gera respostas erradas.
IA Generativa
A Microsoft está empenhada em aumentar a confiança nas suas ferramentas de IA generativa, que são utilizadas tanto por consumidores como por clientes empresariais. Em fevereiro, a empresa investigou incidentes envolvendo seu chatbot Copilot, que estava gerando respostas estranhas e prejudiciais. Depois de analisar os incidentes, a Microsoft disse que os usuários tentaram deliberadamente enganar o Copilot para que gerasse essas respostas.
“Certamente vemos isso aumentando à medida que há mais uso das ferramentas, mas também à medida que mais pessoas estão cientes dessas diferentes técnicas”, disse Bird. Os sinais reveladores desses ataques incluem fazer uma pergunta ao chatbot várias vezes.
Bird disse que a Microsoft e a OpenAI estão comprometidas a implantar a IA com segurança e construir proteções em modelos amplos de linguagem subjacentes à IA generativa.
“Entretanto, não se pode depender apenas do modelo”, disse. “Esses jailbreaks, por exemplo, são uma fraqueza inerente à tecnologia do modelo.”