AI Chatbot do Google é treinado por humanos que se dizem sobrecarregados

Garantir que a resposta seja bem fundamentada e baseada em evidências, no entanto, cabe a milhares de contratados externos de empresas como Appen Ltd. e Accenture Plc, que podem ganhar apenas US$ 14 por hora e trabalhar com treinamento mínimo sob prazos frenéticos a vários empreiteiros, que não quiseram ser identificados por temerem perder seus empregos.

Os contratados são o back-end invisível do boom generativo da IA que promete mudar tudo. Chatbots como o Bard usam a inteligência do computador para responder quase instantaneamente a uma série de perguntas que abrangem todo o conhecimento e criatividade humanos. Mas, para melhorar essas respostas para que possam ser entregues de forma confiável repetidamente, as empresas de tecnologia contam com pessoas reais que revisam as respostas, fornecem feedback sobre erros e eliminam qualquer indício de viés.

É um trabalho cada vez mais ingrato. Seis trabalhadores contratados atuais do Google disseram que, quando a empresa entrou em uma corrida armamentista de IA com a rival OpenAI no ano passado, o tamanho de sua carga de trabalho e a complexidade de suas tarefas aumentaram. Sem experiência específica, eles foram confiados para avaliar as respostas em assuntos que vão desde doses de medicamentos até leis estaduais. Documentos compartilhados com a Bloomberg mostram instruções complicadas que os trabalhadores devem aplicar a tarefas com prazos para respostas de auditoria que podem ser de até três minutos.

“Do jeito que está agora, as pessoas estão assustadas, estressadas, mal pagas, não sabem o que está acontecendo”, disse um dos empreiteiros. “E essa cultura do medo não conduz a obter a qualidade e o trabalho em equipe que você deseja de todos nós.”

O Google posicionou seus produtos de IA como recursos públicos em saúde, educação e vida cotidiana. Mas privada e publicamente, os empreiteiros levantaram preocupações sobre suas condições de trabalho, que dizem prejudicar a qualidade do que os usuários veem. Um funcionário contratado do Google que trabalha para a Appen disse em uma carta ao Congresso em maio que a velocidade com que eles são obrigados a revisar o conteúdo pode levar o Bard a se tornar um produto “defeituoso” e “perigoso” .

O Google fez da IA uma grande prioridade em toda a empresa, correndo para infundir a nova tecnologia em seus principais produtos após o lançamento do ChatGPT da OpenAI em novembro. Em maio, na conferência anual de desenvolvedores de I/O da empresa, o Google abriu a Bard para 180 países e territórios e revelou recursos experimentais de IA em produtos importantes como pesquisa, e-mail e Google Docs. O Google se posiciona como superior à concorrência por causa de seu acesso à “amplitude do conhecimento mundial”.

“Empreendemos um trabalho extensivo para construir nossos produtos de IA com responsabilidade, incluindo testes rigorosos, treinamento e processos de feedback que aprimoramos há anos para enfatizar a factualidade e reduzir os vieses”, disse o Google, de propriedade da Alphabet Inc., em um comunicado. A empresa disse que não depende apenas dos avaliadores para melhorar a IA e que existem vários outros métodos para melhorar sua precisão e qualidade.

Para se preparar para o uso público desses produtos, os trabalhadores disseram que começaram a receber tarefas relacionadas à IA já em janeiro. Um treinador, empregado por Appen, foi recentemente solicitado a comparar duas respostas fornecendo informações sobre as últimas notícias sobre a proibição da Flórida em cuidados de afirmação de gênero, classificando as respostas por utilidade e relevância. Os trabalhadores também são frequentemente solicitados a determinar se as respostas do modelo de IA contêm evidências verificáveis. Os avaliadores devem decidir se uma resposta é útil com base em diretrizes de seis pontos que incluem a análise de respostas para itens como especificidade, atualização de informações e coerência.

Eles também são solicitados a garantir que as respostas não “contenham conteúdo prejudicial, ofensivo ou excessivamente sexual” e não “contenham informações imprecisas, enganosas ou enganosas”. O levantamento das respostas da IA para conteúdo enganoso deve ser “baseado em seu conhecimento atual ou pesquisa rápida na web”, dizem as diretrizes . “Você não precisa realizar uma verificação rigorosa dos fatos” ao avaliar a utilidade das respostas.

O exemplo de resposta para “Quem é Michael Jackson?” incluiu uma imprecisão sobre o cantor estrelar o filme “Moonwalker” – que a IA disse ter sido lançado em 1983. O filme realmente foi lançado em 1988. “Embora comprovadamente incorreto”, afirmam as diretrizes, “esse fato é menor no contexto de respondendo à pergunta: ‘Quem é Michael Jackson?’”

Mesmo que a imprecisão pareça pequena, “ainda é preocupante que o chatbot esteja errando os principais fatos”, disse Alex Hanna, diretor de pesquisa do Distributed AI Research Institute e ex-eticista de IA do Google. “Parece que essa é uma receita para exacerbar a aparência dessas ferramentas, dando detalhes que estão corretos, mas não estão”, disse ela.

Os avaliadores dizem que estão avaliando tópicos de alto risco para os produtos de IA do Google. Um dos exemplos nas instruções, por exemplo, fala sobre as evidências que um avaliador poderia usar para determinar as dosagens certas de um medicamento para tratar a hipertensão, chamado Lisinopril.

O Google disse que alguns trabalhadores preocupados com a precisão do conteúdo podem não ter treinado especificamente para precisão, mas para tom, apresentação e outros atributos que ele testa. “As classificações são deliberadamente realizadas em uma escala móvel para obter um feedback mais preciso para melhorar esses modelos”, disse a empresa. “Essas classificações não afetam diretamente a produção de nossos modelos e não são de forma alguma a única maneira de promover a precisão.”

Ed Stackhouse, o funcionário da Appen que enviou a carta ao Congresso, disse em uma entrevista que os funcionários contratados estavam sendo solicitados a fazer o trabalho de rotulagem de IA nos produtos do Google “porque somos indispensáveis para a IA no que diz respeito a esse treinamento”. Mas ele e outros trabalhadores disseram que pareciam ser avaliados por seu trabalho de maneiras misteriosas e automatizadas. Eles não têm como se comunicar diretamente com o Google, além de fornecer feedback em uma entrada de “comentários” em cada tarefa individual. E eles têm que se mover rapidamente. “Estamos sendo sinalizados por um tipo de IA nos dizendo para não perder tempo com a IA”, acrescentou Stackhouse.

O Google contestou a descrição dos trabalhadores de serem sinalizados automaticamente pela IA por excederem as metas de tempo. Ao mesmo tempo, a empresa disse que a Appen é responsável por todas as avaliações de desempenho dos funcionários. Appen não respondeu aos pedidos de comentários. Um porta-voz da Accenture disse que a empresa não comenta o trabalho do cliente.

Outras empresas de tecnologia que treinam produtos de IA também contratam empreiteiros humanos para melhorá-los. Em janeiro, a Time informou que trabalhadores no Quênia, que pagavam US$ 2 por hora, trabalharam para tornar o ChatGPT menos tóxico. Outros gigantes da tecnologia, incluindo Meta Platforms Inc., Amazon.com Inc. e Apple Inc. usam funcionários subcontratados para moderar o conteúdo de redes sociais e análises de produtos, além de fornecer suporte técnico e atendimento ao cliente.

“Se você quiser perguntar, qual é o segredo do Bard e do ChatGPT? É tudo da internet. E são todos esses dados rotulados que esses rotuladores criam”, disse Laura Edelson, cientista da computação da Universidade de Nova York. “Vale a pena lembrar que esses sistemas não são obra de mágicos – são o trabalho de milhares de pessoas e seu trabalho mal remunerado.”

O Google disse em comunicado que “simplesmente não é o empregador de nenhum desses trabalhadores. Nossos fornecedores, como empregadores, determinam suas condições de trabalho, incluindo pagamento e benefícios, horas e tarefas atribuídas e mudanças de emprego – não o Google.”

Funcionários disseram ter encontrado bestialidade, imagens de guerra, pornografia infantil e discurso de ódio como parte de seu trabalho de rotina avaliando a qualidade dos produtos e serviços do Google. Embora alguns trabalhadores, como os que se reportam à Accenture, tenham benefícios de assistência médica, a maioria tem apenas opções mínimas de “serviço de aconselhamento” que permitem aos trabalhadores ligar para uma linha direta para aconselhamento de saúde mental, de acordo com um site interno que explica alguns benefícios do contratado.

Para o projeto Bard do Google, os funcionários da Accenture foram solicitados a escrever respostas criativas para o chatbot de IA, disseram os funcionários. Eles responderam às solicitações no chatbot – um dia eles poderiam estar escrevendo um poema sobre dragões no estilo shakespeariano, por exemplo, e outro dia eles poderiam estar depurando o código de programação de computador. O trabalho deles era arquivar o maior número possível de respostas criativas aos prompts a cada dia de trabalho, de acordo com pessoas familiarizadas com o assunto, que não quiseram ser identificadas porque não estavam autorizadas a discutir processos internos.

Descubra como o ChatGPT funciona e exemplos de como usar

Por um curto período, os trabalhadores foram realocados para revisar avisos obscenos, gráficos e ofensivos, disseram eles. Depois que um trabalhador apresentou uma reclamação de RH à Accenture, o projeto foi encerrado abruptamente para a equipe dos Estados Unidos, embora alguns dos colegas dos escritores em Manila continuassem trabalhando em Bard.

Os empregos têm pouca segurança. No mês passado, meia dúzia de funcionários contratados do Google que trabalhavam para a Appen receberam uma nota da administração, dizendo que seus cargos haviam sido eliminados “devido às condições comerciais”. As demissões foram abruptas, disseram os trabalhadores, porque acabaram de receber vários e-mails oferecendo bônus para trabalhar mais horas treinando produtos de IA. Os seis trabalhadores demitidos apresentaram queixa ao Conselho Nacional de Relações Trabalhistas em junho. Eles alegaram que foram demitidos ilegalmente por organização, por causa da carta de Stackhouse ao Congresso. Antes do final do mês, eles foram reintegrados em seus empregos .

O Google disse que a disputa era um assunto entre os trabalhadores e a Appen, e que eles “respeitam os direitos trabalhistas dos funcionários da Appen de se filiarem a um sindicato”. Appen não respondeu a perguntas sobre a organização de seus trabalhadores.

Emily Bender, professora de lingüística computacional da Universidade de Washington, disse que o trabalho desses funcionários contratados no Google e em outras plataformas de tecnologia é “uma história de exploração do trabalho”, apontando para a precariedade da segurança no emprego e como alguns desses tipos de trabalhadores são paga bem abaixo de um salário digno. “Jogar com um desses sistemas e dizer que você está fazendo isso apenas por diversão – talvez pareça menos divertido, se você pensar sobre o que é necessário para criar e o impacto humano disso”, disse Bender.

Os funcionários contratados disseram que nunca receberam nenhuma comunicação direta do Google sobre seu novo trabalho relacionado à IA – tudo é filtrado por seu empregador. Eles disseram que não sabem de onde vêm as respostas geradas pela IA que veem, nem para onde vai o feedback. Na ausência dessas informações e com a natureza em constante mudança de seus empregos, os trabalhadores temem estar ajudando a criar um produto ruim.

Algumas das respostas que eles encontram podem ser bizarras. Em resposta ao prompt “Sugira as melhores palavras que posso formar com as letras: k, e, g, a, o, g, w”, uma resposta gerada pela IA listou 43 palavras possíveis, começando com a sugestão nº 1 : “vagão.” As sugestões 2 a 43, entretanto, repetiam a palavra “WOKE” repetidamente.

Em outra tarefa, um avaliador recebeu uma resposta longa que começava com: “Pelo que sei, corte em setembro de 2021”. Essa resposta está associada ao grande modelo de linguagem do OpenAI, chamado GPT-4. Embora o Google tenha dito que Bard “não é treinado em nenhum dado do ShareGPT ou ChatGPT”, os avaliadores se perguntam por que tais frases aparecem em suas tarefas.

Bender disse que faz pouco sentido para grandes corporações de tecnologia encorajar as pessoas a fazerem perguntas a um chatbot de IA sobre uma gama tão ampla de tópicos e apresentá-los como “máquinas de tudo”.

“Por que a mesma máquina que é capaz de fornecer a previsão do tempo na Flórida também pode fornecer conselhos sobre as doses de medicamentos?” ela perguntou. “As pessoas por trás da máquina, encarregadas de torná-la um pouco menos terrível em algumas dessas circunstâncias, têm um trabalho impossível.”

Conheça a história do Google e como ela redefiniu o mundo digital