OpenAI guarda detector de trapaça do ChatGPT para não perder usuários

O projeto enfrenta um debate interno na OpenAI há cerca de dois anos e está pronto para ser lançado há mais ou menos um ano, de acordo com pessoas familiarizadas com o assunto e documentos internos vistos pelo Wall Street Journal. “É só uma questão de apertar um botão”, disse uma das pessoas.

Ao tentar decidir o que fazer, os funcionários da OpenAI estão divididos entre o compromisso declarado da startup com a transparência e seu desejo de atrair e reter usuários. Uma pesquisa que a empresa realizou com usuários leais do ChatGPT descobriu que perderia quase um terço deles com a tecnologia antifraude.

Uma porta-voz da OpenAI disse que a preocupação da empresa é que a ferramenta possa afetar desproporcionalmente grupos como falantes não nativos de inglês. “O método de marca d’água de texto que estamos desenvolvendo é tecnicamente promissor, mas tem riscos importantes que estamos avaliando enquanto pesquisamos alternativas”, explicou ela. “Acreditamos que a abordagem que adotamos é necessária, dadas as complexidades envolvidas e seu provável impacto no ecossistema mais amplo além da OpenAI.”

Os funcionários que apoiam o lançamento da ferramenta, incluindo aqueles que ajudaram a desenvolvê-la, disseram internamente que esses argumentos são fracos em comparação com o bem que a tecnologia poderia gerar.

A IA generativa pode criar um ensaio ou trabalho de pesquisa inteiro em questão de segundos, com base em um único prompt, gratuitamente. Professores dizem estar desesperados por ajuda para reprimir seu uso indevido.

“É um grande problema”, disse Alexa Gutterman, professora de inglês e jornalismo do ensino médio na cidade de Nova York. “É um fato já mencionado por todos os professores com quem trabalho.”

Uma pesquisa recente do Centro para Democracia & Tecnologia, organização sem fins lucrativos de política de tecnologia, descobriu que 59% dos professores do ensino fundamental e médio tinham certeza de que alguns alunos haviam usado IA nos trabalhos escolares, um aumento de 17 pontos em relação ao ano letivo anterior.

O presidente-executivo da OpenAI, Sam Altman, e a diretora de tecnologia, Mira Murati, estiveram envolvidos em discussões sobre a ferramenta antifraude. Altman encorajou o projeto, mas não pressionou para que fosse lançado, disseram algumas pessoas familiarizadas com o assunto.

A News Corp, proprietária do Wall Street Journal, tem uma parceria de licenciamento de conteúdo com a OpenAI.

99,9% eficaz

O ChatGPT é alimentado por um sistema de IA que prevê qual palavra ou fragmento de palavra, conhecido como token, deve vir a seguir em uma frase. A ferramenta antifraude em discussão na OpenAI mudaria ligeiramente a forma como os tokens são selecionados. Essas mudanças criariam um padrão chamado marca d’água.

As marcas d’água seriam imperceptíveis para os humanos, mas poderiam ser encontradas com a tecnologia de detecção da OpenAI. O detector fornece uma pontuação da probabilidade de todo o documento ou parte dele ter sido escrito pelo ChatGPT.

As marcas d’água são 99,9% eficazes quando uma parte suficiente de um novo texto é criada pelo ChatGPT, de acordo com os documentos internos.

“É mais provável que o sol evapore amanhã do que este trabalho de conclusão de curso não tenha marca d’água”, disse John Thickstun, pesquisador de Stanford que faz parte de uma equipe que desenvolveu um método de marca d’água semelhante para textos de IA.

Ainda assim, os funcionários mencionaram preocupações de que as marcas d’água possam ser apagadas por meio de técnicas simples, como fazer com que o Google traduza o texto para outro idioma e depois volte para o original, ou fazer com que o ChatGPT adicione emojis ao texto, que serão manualmente excluídos, disse um funcionário da OpenAI familiarizado com o assunto.

Há um amplo consenso dentro da empresa de que determinar quem pode usar esse detector seria um desafio. Se poucas pessoas o tiverem, a ferramenta não será útil. Se muitos obtiverem acesso, os fraudadores conseguirão decifrar a técnica de marca d’água da empresa.

Os funcionários da OpenAI discutiram o fornecimento do detector diretamente com educadores ou com empresas externas que ajudam as escolas a identificar artigos escritos por IA e trabalhos plagiados.

O Google desenvolveu uma ferramenta de marca d’água que pode detectar texto gerado por sua IA Gemini. Chamado SynthID, passa por teste beta e não está amplamente disponível.

Mulheres em sala de reunião. Uma usa laptop e TV com videochamada; a outra ouve. — Funcionários trabalham nos escritórios da OpenAI em São Francisco (Clara Mokri/The Wall Street Journal)

A OpenAI tem uma ferramenta para determinar se uma imagem foi criada usando sua ferramenta “texto para imagem”, a DALL-E 3, que foi lançada para teste há alguns meses. A empresa deu prioridade à marca d’água de áudio e visual em vez do texto porque os danos são mais significativos, principalmente em um ano eleitoral movimentado nos EUA, disse o funcionário familiarizado com o assunto.

Textos sobre o Batman

Em janeiro de 2023, a OpenAI lançou um algoritmo destinado a detectar texto escrito por vários modelos de IA, incluindo o seu próprio. Mas teve sucesso apenas 26% das vezes, e ele foi cancelado sete meses depois.

Existem outras ferramentas desenvolvidas por empresas e pesquisadores externos para detectar texto criado com IA, e muitos professores dizem que as usaram. Mas às vezes eles não conseguem detectar texto escrito por modelos avançados de linguagem e podem produzir falsos positivos.

No início, os alunos “pensavam que tínhamos truques mágicos para descobrir se estavam usando IA”, disse Mike Kentz, consultor de IA para educadores que recentemente lecionou em uma escola particular na Geórgia. “No final do ano, eles estavam tipo, espera um pouco, o professor não tem ideia.”

Alguns professores incentivam os alunos a usar a IA para ajudar na pesquisa ou dar palpites sobre ideias. O problema é quando os alunos têm um aplicativo como o ChatGPT fazendo todo o trabalho e nem sabem o que estão entregando.

No ano passado, Josh McCrain, professor de ciência política da Universidade de Utah, deu aos alunos uma tarefa de redação que incluía, em um pequeno texto indecifrável, instruções para incluir uma referência ao Batman. Se copiassem e colassem a tarefa para a IA, as instruções iriam junto.

E, batata! Vários alunos entregaram trabalhos com referências absurdas ao Batman. No futuro, McCrain está ajustando as tarefas de redação para se concentrar mais nos eventos atuais com os quais a IA está menos familiarizada e implorando aos alunos que não produzam todo seu trabalho com a ferramenta. “É aí que tento realmente enfatizar esse ponto para os alunos: você precisa aprender essas coisas”, disse ele.

Anos de debate

As discussões sobre a ferramenta de marca d’água começaram antes do lançamento do ChatGPT pela OpenAI em novembro de 2022 e têm sido uma fonte persistente de tensão, revelaram as pessoas familiarizadas com o assunto. Foi desenvolvido por Scott Aaronson, professor de ciência da computação que trabalha com segurança na OpenAI durante sua licença da Universidade do Texas nos últimos dois anos.

No início de 2023, um dos cofundadores da OpenAI, John Schulman, descreveu os prós e contras da ferramenta em um Google doc compartilhado. Os executivos da OpenAI decidiram então que buscariam informações de várias pessoas antes de agir.

Nos 18 meses seguintes, os executivos da OpenAI discutiram repetidamente a tecnologia e buscaram novos dados para ajudar a decidir se deveriam lançá-la.

Em abril de 2023, a OpenAI encomendou uma pesquisa que mostrou que pessoas em todo o mundo apoiavam a ideia de uma ferramenta de detecção de IA por uma margem de quatro para um, segundo documentos internos.

No mesmo mês, a empresa pesquisou os usuários do ChatGPT e descobriu que 69% acreditam que a tecnologia de detecção de fraudes levaria a falsas acusações de uso de IA. Quase 30% disseram que usariam menos o ChatGPT caso este adotasse as marcas d’água e um rival não.

Uma preocupação interna recorrente é que a ferramenta antifraude poderia prejudicar a qualidade da escrita do ChatGPT. A OpenAI realizou um teste no início deste ano que descobriu que a marca d’água não prejudicou o desempenho do ChatGPT, revelaram pessoas familiarizadas com o assunto.

“Nossa capacidade de defender nossa falta de marca d’água de texto é fraca agora que sabemos que isso não afeta os resultados”, concluíram os funcionários envolvidos no teste, de acordo com os documentos internos.

No início de junho, funcionários seniores e pesquisadores da OpenAI se reuniram novamente para discutir o projeto. O grupo concordou que a tecnologia de marca d’água funcionou bem, mas os resultados da pesquisa com usuários do ChatGPT do ano passado ainda pesavam. Os funcionários disseram que a empresa deveria analisar outras abordagens potencialmente menos controversas, mas não comprovadas, entre os usuários, de acordo com pessoas com conhecimento da reunião.

Elas também disseram que a OpenAI precisava de um plano nos próximos meses para influenciar a opinião pública em torno da transparência da IA, além de possíveis novas leis sobre o assunto, mostram os documentos internos.

“Sem isso, nossa credibilidade de atores responsáveis corre riscos”, disse um resumo da reunião de junho.

Escreva para Deepa Seetharaman em [email protected] e Matt Barnum em [email protected]

Traduzido do inglês por InvestNews

Presented by

Existe uma ferramenta para pegar alunos trapaceando com o ChatGPT. A OpenAI não a lançou

99,9% eficaz

Textos sobre o Batman

Anos de debate