Vorazes consumidoras de dados, empresas de IA veem a internet como muito pequena

As empresas que se apressam para desenvolver um sistema de inteligência artificial cada vez mais poderoso estão rapidamente se aproximando de um novo problema: a internet pode ser muito pequena para os seus planos.

Para aprender, os sistemas desenvolvidos pela OpenAI, Google e outros exigem um oceano de informação muito maior. Essa demanda está sobrecarregando a oferta de dados públicos de qualidade disponível on-line, ao mesmo tempo em que alguns proprietários de dados bloqueiam o acesso a empresas de IA.

Executivos e pesquisadores dizem que a necessidade da indústria por dados de alta qualidade pode superar a oferta dentro de dois anos, potencialmente retardando o desenvolvimento da IA.

Empresas de IA estão buscando fontes de informação inexploradas e repensando o modo como treinam esses sistemas. A OpenAI, fabricante do ChatGPT, já pensou em treinar seu próximo modelo, o GPT-5, com transcrições de vídeos públicos do YouTube, segundo pessoas familiarizadas com o assunto.

As empresas também estão experimentando usar dados gerados por IA, ou sintéticos, como material de treinamento — uma abordagem que muitos pesquisadores acreditam que pode realmente causar falhas incapacitantes.

Os esforços muitas vezes são secretos, porque os executivos avaliam que as soluções podem ser uma vantagem competitiva.

A escassez de dados “é um problema da falta de desenvolvimento de pesquisa”, disse Ari Morcos, pesquisador de IA que trabalhou na Meta Platforms e na unidade DeepMind do Google antes de fundar a DatologyAI no ano passado. Sua empresa, cujos apoiadores incluem vários pioneiros em IA, desenvolve ferramentas para melhorar a seleção de dados, o que poderia ajudar outras empresas a treinar modelos mais baratos. “Não há uma maneira estabelecida de fazer isso.”

Os dados estão entre os vários recursos essenciais de IA em falta. Os chips necessários para rodar os chamados grandes modelos de linguagem por trás do ChatGPT, do Gemini do Google e de outros bots de IA também são escassos. E os líderes do setor se preocupam com a escassez de data centers e com o consumo de eletricidade necessária para alimentá-los.

Os modelos de linguagem de IA são construídos usando textos extraídos da internet, incluindo pesquisas científicas, artigos de notícias e páginas da Wikipédia. Esse material é dividido em tokens — palavras e partes de palavras que os modelos usam para aprender a formular expressões humanas.

Escritório da OpenAI em São Francisco | Crédito: Clara Mokri/WSJ

Geralmente, os modelos de IA se tornam mais competentes conforme são treinados com mais dados. A OpenAI apostou alto nessa abordagem, o que a ajudou a se tornar a empresa mais proeminente do mundo no setor.

A OpenAI não divulga detalhes do material de treinamento de seu modelo de linguagem atual mais avançado, chamado GPT-4, que estabeleceu o padrão para sistemas avançados de IA generativa. Mas Pablo Villalobos, que estuda inteligência artificial para o instituto de pesquisa Epoch, estimou que o GPT-4 foi treinado com até 12 trilhões de tokens. Com base em um princípio da ciência da computação chamado leis de escala Chinchilla, um sistema de IA como o GPT-5 precisaria de 60 trilhões a 100 trilhões de tokens de dados se os pesquisadores continuassem a seguir a trajetória de crescimento atual, estimaram Villalobos e outros pesquisadores.

A utilização de todos os dados de linguagem e imagem de alta qualidade disponíveis ainda pode deixar um déficit de 10 trilhões a 20 trilhões de tokens ou mais, afirmou Villalobos. E ninguém sabe ainda como preencher essa lacuna.

Há dois anos, Villalobos e seus colegas escreveram que havia 50% de chance de que a demanda por dados de alta qualidade superaria a oferta até meados de 2024 e 90% de chance de que isso acontecesse até 2026. Desde então, estão um pouco mais otimistas e planejam atualizar sua estimativa para 2028.

A maioria dos dados disponíveis on-line é inútil para o treinamento de IA porque contém falhas, como fragmentos de frases, ou não aumenta o conhecimento de um modelo. Villalobos estimou que apenas uma fração da internet é útil para esse treinamento — talvez apenas um décimo das informações coletadas pela organização sem fins lucrativos Common Crawl, cujo arquivo da web é amplamente usado por desenvolvedores de IA.

Ao mesmo tempo, plataformas de mídia social, empresas de notícias e outros restringem o acesso a seus dados para treinamento de IA devido a preocupações com questões como compensação justa. E o público não está muito disposto a entregar dados de conversas privadas — como bate-papos pelo iMessage — para ajudar a treinar esses modelos.

Recentemente, Mark Zuckerberg elogiou o acesso da Meta a dados em suas plataformas como uma vantagem significativa em seu desenvolvimento de IA. Ele disse que a Meta pode minerar centenas de bilhões de imagens e vídeos compartilhados publicamente em suas redes, incluindo Facebook e Instagram, que juntos são maiores do que os conjuntos de dados mais comumente usados. No entanto, não se sabe qual porcentagem desses dados seria considerada de alta qualidade.

Uma estratégia usada pela DatologyAI, a startup de ferramentas de seleção de dados, é chamada de aprendizagem curricular, na qual os dados são fornecidos a modelos de linguagem em uma ordem específica na esperança de que a IA forme conexões mais inteligentes entre conceitos. Em um artigo de 2022, Morcos e coautores da DatologyAI estimaram que os modelos podem alcançar os mesmos resultados com metade dos dados — se forem os dados certos —, potencialmente reduzindo o imenso custo de treinamento e funcionamento de grandes sistemas de IA generativa.

Outras pesquisas até agora sugerem que o método de aprendizagem curricular não foi eficaz, mas Morcos diz que essa abordagem continua a ser adaptada.

“Esse é o segredo sujo do deep learning: atirar para todos os lados e ver o que dá certo”, explicou Morcos.

Algumas empresas de tecnologia, incluindo a parceria OpenAI-Microsoft, estão desenvolvendo modelos de linguagem menores que são uma fração do tamanho do GPT-4, mas que podem atingir objetivos específicos.

O executivo-chefe da OpenAI, Sam Altman, indicou que a empresa está trabalhando em novos métodos para treinar modelos futuros. “Acho que estamos no fim da era na qual esses modelos são extremamente gigantes”, disse ele em uma conferência no ano passado. “E vamos melhorá-los de outras maneiras.”

A OpenAI também discutiu a criação de um mercado de dados no qual poderia desenvolver uma maneira de atribuir valor à contribuição de cada ponto de dados individual para o modelo final treinado e pagar ao provedor desse conteúdo, segundo pessoas familiarizadas com o assunto.

Essa mesma ideia está sendo discutida no Google. Mas os pesquisadores até agora têm tido dificuldade para construir esse sistema e não está claro se algum dia encontrarão uma solução.

A OpenAI também está trabalhando para reunir tudo de útil que já está por aí. Seus executivos discutiram transcrever vídeos e áudios de alta qualidade na internet usando o Whisper, sua ferramenta automática de reconhecimento de fala, de acordo com pessoas familiarizadas com o assunto. Parte disso seria por meio de vídeos públicos no YouTube, um subconjunto dos quais já foi usado para treinar o GPT-4, afirmaram essas pessoas.

“Nossos conjuntos de dados são únicos, e os selecionamos para ajudar nossos modelos a entender o mundo”, disse uma porta-voz da OpenAI, acrescentando se basear em conteúdo disponível publicamente e obter dados não públicos por meio de parcerias.

O Google não retornou o pedido de comentário feito pelo The Wall Street Journal.

As empresas também estão experimentando criar seus próprios dados.

A utilização de um texto modelo gerado pela própria IA é considerado a versão de ciência da computação da endogamia. Esse tipo de modelo tende a produzir bobagens, que alguns pesquisadores chamam de “colapso do modelo”.

Em um experimento, discutido em um artigo de pesquisa no ano passado, pesquisadores canadenses e britânicos descobriram que a geração posterior de tal modelo, quando solicitada a discutir a arquitetura inglesa do século XIV, mencionou uma espécie de animal não existente na época.

Pesquisadores da OpenAI e da Anthropic tentam evitar esses problemas criando os chamados dados sintéticos de maior qualidade.

Jared Kaplan, cientista-chefe da Anthropic, em evento do WSJ em fevereiro/24 | Crédito: Nikki Ritcher/ WSJ

Em uma entrevista recente, o cientista-chefe da Anthropic, Jared Kaplan, afirmou que alguns tipos de dados sintéticos podem ser úteis. A empresa disse que usou “dados que geramos internamente” para informar as versões mais recentes de seus modelos Claude. A OpenAI também está explorando a geração de dados sintéticos, disse a porta-voz.

Muitos dos que estudam a questão dos dados acabam convencidos de que soluções surgirão. Villalobos compara a questão ao “pico do petróleo”, o temor de que a produção de petróleo possa atingir o limite e iniciar um colapso economicamente doloroso. Essa preocupação se mostrou imprecisa graças às novas tecnologias, como a fratura hidráulica no início dos anos 2000.

É possível que o mundo da IA possa ver um desenvolvimento semelhante, diz ele. “A maior incerteza é quais avanços veremos.”

Escreva para Deepa Seetharaman em [email protected]

Traduzido do inglês por InvestNews

Presented by