Microsoft busca formas de impedir que chatbots sejam enganados

Novos recursos de segurança estão sendo integrados ao Azure AI Studio, serviço desenvolvido pela OpenAI que permite aos desenvolvedores criar assistentes de IA personalizados usando seus próprios dados, disse a empresa em um post nesta quinta-feira.

As ferramentas incluem “escudos de prompt”, que são projetados para detectar e bloquear tentativas deliberadas – também conhecidas como ataques de injeção de prompt ou jailbreaks – para fazer com que um modelo de IA se comporte de maneira não intencional. A Microsoft também está abordando “injeções indiretas de prompt”, quando hackers inserem instruções maliciosas nos dados nos quais um modelo é treinado e o induzem a realizar ações não autorizadas, como roubar informações do usuário ou sequestrar um sistema.

Esses ataques são “um desafio e uma ameaça únicos”, disse Sarah Bird, diretora de produtos de IA da Microsoft. As novas defesas foram projetadas para detectar entradas suspeitas e bloqueá-las em tempo real, acrescentou ela. A Microsoft também está lançando um recurso que alerta os usuários quando um modelo inventa informações ou gera respostas erradas.

IA Generativa

A Microsoft está empenhada em aumentar a confiança nas suas ferramentas de IA generativa, que são utilizadas tanto por consumidores como por clientes empresariais. Em fevereiro, a empresa investigou incidentes envolvendo seu chatbot Copilot, que estava gerando respostas estranhas e prejudiciais. Depois de analisar os incidentes, a Microsoft disse que os usuários tentaram deliberadamente enganar o Copilot para que gerasse essas respostas.

“Certamente vemos isso aumentando à medida que há mais uso das ferramentas, mas também à medida que mais pessoas estão cientes dessas diferentes técnicas”, disse Bird. Os sinais reveladores desses ataques incluem fazer uma pergunta ao chatbot várias vezes.

Bird disse que a Microsoft e a OpenAI estão comprometidas a implantar a IA com segurança e construir proteções em modelos amplos de linguagem subjacentes à IA generativa.

“Entretanto, não se pode depender apenas do modelo”, disse. “Esses jailbreaks, por exemplo, são uma fraqueza inerente à tecnologia do modelo.”

O Essencial

Morning Cripto

Inscrição confirmada!

Erro ao cadastrar o e-mail