{"id":567561,"date":"2024-04-02T13:05:05","date_gmt":"2024-04-02T17:05:49","guid":{"rendered":"https:\/\/investnews.com.br\/?p=567561"},"modified":"2025-08-08T16:12:27","modified_gmt":"2025-08-08T19:12:27","slug":"vorazes-consumidoras-de-dados-empresas-de-ia-veem-a-internet-como-muito-pequena","status":"publish","type":"post","link":"https:\/\/investnews.com.br\/the-wall-street-journal\/vorazes-consumidoras-de-dados-empresas-de-ia-veem-a-internet-como-muito-pequena\/","title":{"rendered":"Vorazes consumidoras de dados, empresas de IA veem a internet como muito pequena"},"content":{"rendered":"<p>As empresas que se apressam para desenvolver um sistema de <a href=\"https:\/\/investnews.com.br\/guias\/inteligencia-artificial\/\">intelig\u00eancia artificial<\/a> cada vez mais poderoso est\u00e3o rapidamente se aproximando de um novo problema: a internet pode ser muito pequena para os seus planos.<\/p><p>Para aprender, os sistemas desenvolvidos pela OpenAI, Google e outros exigem um oceano de informa\u00e7\u00e3o muito maior. Essa demanda est\u00e1 sobrecarregando a oferta de dados p\u00fablicos de qualidade dispon\u00edvel on-line, ao mesmo tempo em que alguns propriet\u00e1rios de dados bloqueiam o acesso a empresas de IA.<\/p><p>Executivos e pesquisadores dizem que a necessidade da ind\u00fastria por dados de alta qualidade pode superar a oferta dentro de dois anos, potencialmente retardando o desenvolvimento da IA.<\/p><p>Empresas de IA est\u00e3o buscando fontes de informa\u00e7\u00e3o inexploradas e repensando o modo como treinam esses sistemas. A OpenAI, fabricante do <a href=\"https:\/\/investnews.com.br\/guias\/chatgpt\/\">ChatGPT<\/a>, j\u00e1 pensou em treinar seu pr\u00f3ximo modelo, o GPT-5, com transcri\u00e7\u00f5es de v\u00eddeos p\u00fablicos do YouTube, segundo pessoas familiarizadas com o assunto.\u00a0<\/p><p>LEIA MAIS: <a href=\"https:\/\/investnews.com.br\/wsj\/ia-de-codigo-aberto-e-compartilhada-gratuitamente-visando-minar-o-dominio-da-openai\/\">Companhias est\u00e3o compartilhando de gra\u00e7a sua IA. Conseguir\u00e3o minar o dom\u00ednio da OpenAI?<\/a><\/p><p>As empresas tamb\u00e9m est\u00e3o experimentando usar dados gerados por IA, ou sint\u00e9ticos, como material de treinamento \u2014 uma abordagem que muitos pesquisadores acreditam que pode realmente causar falhas incapacitantes.<\/p><p>Os esfor\u00e7os muitas vezes s\u00e3o secretos, porque os executivos avaliam que as solu\u00e7\u00f5es podem ser uma vantagem competitiva.<\/p><p>A escassez de dados \u201c\u00e9 um problema da falta de desenvolvimento de pesquisa\u201d, disse Ari Morcos, pesquisador de IA que trabalhou na Meta Platforms e na unidade DeepMind do Google antes de fundar a DatologyAI no ano passado. Sua empresa, cujos apoiadores incluem v\u00e1rios pioneiros em IA, desenvolve ferramentas para melhorar a sele\u00e7\u00e3o de dados, o que poderia ajudar outras empresas a treinar modelos mais baratos. \u201cN\u00e3o h\u00e1 uma maneira estabelecida de fazer isso.\u201d<\/p><p>Os dados est\u00e3o entre os v\u00e1rios recursos essenciais de IA em falta. Os chips necess\u00e1rios para rodar os chamados grandes modelos de linguagem por tr\u00e1s do ChatGPT, do Gemini do Google e de outros bots de IA tamb\u00e9m s\u00e3o escassos. E os l\u00edderes do setor se preocupam com a escassez de data centers e com o consumo de eletricidade necess\u00e1ria para aliment\u00e1-los.<\/p><p>Os modelos de linguagem de IA s\u00e3o constru\u00eddos usando textos extra\u00eddos da internet, incluindo pesquisas cient\u00edficas, artigos de not\u00edcias e p\u00e1ginas da Wikip\u00e9dia. Esse material \u00e9 dividido em <a href=\"https:\/\/investnews.com.br\/guias\/tokens-o-que-sao\/\">tokens<\/a> \u2014 palavras e partes de palavras que os modelos usam para aprender a formular express\u00f5es humanas.<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"682\" src=\"https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-1024x682.jpg\" alt=\"Ambiente de escrit\u00f3rio de plano aberto com grandes janelas. Pessoas trabalhando em esta\u00e7\u00f5es com computadores.\" class=\"wp-image-567559\" srcset=\"https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-1024x682.jpg 1024w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-300x200.jpg 300w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-768x512.jpg 768w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-1256x837.jpg 1256w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-172x115.jpg 172w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small-150x100.jpg 150w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/2-opena-ai-internet-small.jpg 1280w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\"><br>Escrit\u00f3rio da OpenAI em S\u00e3o Francisco | Cr\u00e9dito: Clara Mokri\/WSJ<\/figcaption><\/figure><p>Geralmente, os modelos de IA se tornam mais competentes conforme s\u00e3o treinados com mais dados. A OpenAI apostou alto nessa abordagem, o que a ajudou a se tornar a empresa mais proeminente do mundo no setor.<\/p><p>A OpenAI n\u00e3o divulga detalhes do material de treinamento de seu modelo de linguagem atual mais avan\u00e7ado, chamado GPT-4, que estabeleceu o padr\u00e3o para sistemas avan\u00e7ados de IA generativa. Mas Pablo Villalobos, que estuda intelig\u00eancia artificial para o instituto de pesquisa Epoch, estimou que o GPT-4 foi treinado com at\u00e9 12 trilh\u00f5es de tokens. Com base em um princ\u00edpio da ci\u00eancia da computa\u00e7\u00e3o chamado leis de escala Chinchilla, um sistema de IA como o GPT-5 precisaria de 60 trilh\u00f5es a 100 trilh\u00f5es de tokens de dados se os pesquisadores continuassem a seguir a trajet\u00f3ria de crescimento atual, estimaram Villalobos e outros pesquisadores.<\/p><p>A utiliza\u00e7\u00e3o de todos os dados de linguagem e imagem de alta qualidade dispon\u00edveis ainda pode deixar um d\u00e9ficit de 10 trilh\u00f5es a 20 trilh\u00f5es de tokens ou mais, afirmou Villalobos. E ningu\u00e9m sabe ainda como preencher essa lacuna.\u00a0<\/p><p>H\u00e1 dois anos, Villalobos e seus colegas escreveram que havia 50% de chance de que a demanda por dados de alta qualidade superaria a oferta at\u00e9 meados de 2024 e 90% de chance de que isso acontecesse at\u00e9 2026. Desde ent\u00e3o, est\u00e3o um pouco mais otimistas e planejam atualizar sua estimativa para 2028.\u00a0<\/p><p>A maioria dos dados dispon\u00edveis on-line \u00e9 in\u00fatil para o treinamento de IA porque cont\u00e9m falhas, como fragmentos de frases, ou n\u00e3o aumenta o conhecimento de um modelo. Villalobos estimou que apenas uma fra\u00e7\u00e3o da internet \u00e9 \u00fatil para esse treinamento \u2014 talvez apenas um d\u00e9cimo das informa\u00e7\u00f5es coletadas pela organiza\u00e7\u00e3o sem fins lucrativos Common Crawl, cujo arquivo da web \u00e9 amplamente usado por desenvolvedores de IA.<\/p><p>Ao mesmo tempo, plataformas de m\u00eddia social, empresas de not\u00edcias e outros restringem o acesso a seus dados para treinamento de IA devido a preocupa\u00e7\u00f5es com quest\u00f5es como compensa\u00e7\u00e3o justa. E o p\u00fablico n\u00e3o est\u00e1 muito disposto a entregar dados de conversas privadas \u2014 como bate-papos pelo iMessage \u2014 para ajudar a treinar esses modelos.\u00a0<\/p><p>Recentemente, Mark Zuckerberg elogiou o acesso da Meta a dados em suas plataformas como uma vantagem significativa em seu desenvolvimento de IA. Ele disse que a Meta pode minerar centenas de bilh\u00f5es de imagens e v\u00eddeos compartilhados publicamente em suas redes, incluindo Facebook e Instagram, que juntos s\u00e3o maiores do que os conjuntos de dados mais comumente usados. No entanto, n\u00e3o se sabe qual porcentagem desses dados seria considerada de alta qualidade.<\/p><p>Uma estrat\u00e9gia usada pela DatologyAI, a startup de ferramentas de sele\u00e7\u00e3o de dados, \u00e9 chamada de aprendizagem curricular, na qual os dados s\u00e3o fornecidos a modelos de linguagem em uma ordem espec\u00edfica na esperan\u00e7a de que a IA forme conex\u00f5es mais inteligentes entre conceitos. Em um artigo de 2022, Morcos e coautores da DatologyAI estimaram que os modelos podem alcan\u00e7ar os mesmos resultados com metade dos dados \u2014 se forem os dados certos \u2014, potencialmente reduzindo o imenso custo de treinamento e funcionamento de grandes sistemas de IA generativa.<\/p><p>Outras pesquisas at\u00e9 agora sugerem que o m\u00e9todo de aprendizagem curricular n\u00e3o foi eficaz, mas Morcos diz que essa abordagem continua a ser adaptada.\u00a0<\/p><p>\u201cEsse \u00e9 o segredo sujo do deep learning: atirar para todos os lados e ver o que d\u00e1 certo\u201d, explicou Morcos.\u00a0<\/p><p>Algumas empresas de tecnologia, incluindo a parceria OpenAI-Microsoft, est\u00e3o desenvolvendo modelos de linguagem menores que s\u00e3o uma fra\u00e7\u00e3o do tamanho do GPT-4, mas que podem atingir objetivos espec\u00edficos.<\/p><p>O executivo-chefe da OpenAI, Sam Altman, indicou que a empresa est\u00e1 trabalhando em novos m\u00e9todos para treinar modelos futuros. \u201cAcho que estamos no fim da era na qual esses modelos s\u00e3o extremamente gigantes\u201d, disse ele em uma confer\u00eancia no ano passado. \u201cE vamos melhor\u00e1-los de outras maneiras.\u201d\u00a0<\/p><p>A OpenAI tamb\u00e9m discutiu a cria\u00e7\u00e3o de um mercado de dados no qual poderia desenvolver uma maneira de atribuir valor \u00e0 contribui\u00e7\u00e3o de cada ponto de dados individual para o modelo final treinado e pagar ao provedor desse conte\u00fado, segundo pessoas familiarizadas com o assunto.\u00a0<\/p><p>Essa mesma ideia est\u00e1 sendo discutida no Google. Mas os pesquisadores at\u00e9 agora t\u00eam tido dificuldade para construir esse sistema e n\u00e3o est\u00e1 claro se algum dia encontrar\u00e3o uma solu\u00e7\u00e3o.\u00a0\u00a0<\/p><p>A OpenAI tamb\u00e9m est\u00e1 trabalhando para reunir tudo de \u00fatil que j\u00e1 est\u00e1 por a\u00ed. Seus executivos discutiram transcrever v\u00eddeos e \u00e1udios de alta qualidade na internet usando o Whisper, sua ferramenta autom\u00e1tica de reconhecimento de fala, de acordo com pessoas familiarizadas com o assunto. Parte disso seria por meio de v\u00eddeos p\u00fablicos no YouTube, um subconjunto dos quais j\u00e1 foi usado para treinar o GPT-4, afirmaram essas pessoas.<\/p><p>\u201cNossos conjuntos de dados s\u00e3o \u00fanicos, e os selecionamos para ajudar nossos modelos a entender o mundo\u201d, disse uma porta-voz da OpenAI, acrescentando se basear em conte\u00fado dispon\u00edvel publicamente e obter dados n\u00e3o p\u00fablicos por meio de parcerias.\u00a0<\/p><p>O Google n\u00e3o retornou o pedido de coment\u00e1rio feito pelo <em>The Wall Street Journal<\/em>.<\/p><p>As empresas tamb\u00e9m est\u00e3o experimentando criar seus pr\u00f3prios dados.\u00a0<\/p><p>A utiliza\u00e7\u00e3o de um texto modelo gerado pela pr\u00f3pria IA \u00e9 considerado a vers\u00e3o de ci\u00eancia da computa\u00e7\u00e3o da endogamia. Esse tipo de modelo tende a produzir bobagens, que alguns pesquisadores chamam de \u201ccolapso do modelo\u201d.<\/p><p>Em um experimento, discutido em um artigo de pesquisa no ano passado, pesquisadores canadenses e brit\u00e2nicos descobriram que a gera\u00e7\u00e3o posterior de tal modelo, quando solicitada a discutir a arquitetura inglesa do s\u00e9culo XIV, mencionou uma esp\u00e9cie de animal n\u00e3o existente na \u00e9poca.<\/p><p>Pesquisadores da OpenAI e da Anthropic tentam evitar esses problemas criando os chamados dados sint\u00e9ticos de maior qualidade.<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"682\" src=\"https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-1024x682.jpg\" alt=\"Homem de \u00f3culos fala e gesticula em confer\u00eancia, sentado. Logotipo da WSJ vis\u00edvel ao fundo.\" class=\"wp-image-567558\" srcset=\"https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-1024x682.jpg 1024w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-300x200.jpg 300w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-768x512.jpg 768w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-1256x837.jpg 1256w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-172x115.jpg 172w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small-150x100.jpg 150w, https:\/\/media.investnews.com.br\/uploads\/2024\/04\/3-opena-ai-internet-small.jpg 1280w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Jared Kaplan, cientista-chefe da Anthropic, em evento do WSJ em fevereiro\/24 | Cr\u00e9dito: Nikki Ritcher\/ WSJ<\/figcaption><\/figure><p>Em uma entrevista recente, o cientista-chefe da Anthropic, Jared Kaplan, afirmou que alguns tipos de dados sint\u00e9ticos podem ser \u00fateis. A empresa disse que usou \u201cdados que geramos internamente\u201d para informar as vers\u00f5es mais recentes de seus modelos Claude. A OpenAI tamb\u00e9m est\u00e1 explorando a gera\u00e7\u00e3o de dados sint\u00e9ticos, disse a porta-voz.\u00a0<\/p><p>Muitos dos que estudam a quest\u00e3o dos dados acabam convencidos de que solu\u00e7\u00f5es surgir\u00e3o. Villalobos compara a quest\u00e3o ao &#8220;pico do petr\u00f3leo&#8221;, o temor de que a produ\u00e7\u00e3o de petr\u00f3leo possa atingir o limite e iniciar um colapso economicamente doloroso. Essa preocupa\u00e7\u00e3o se mostrou imprecisa gra\u00e7as \u00e0s novas tecnologias, como a fratura hidr\u00e1ulica no in\u00edcio dos anos 2000.\u00a0<\/p><p>\u00c9 poss\u00edvel que o mundo da IA possa ver um desenvolvimento semelhante, diz ele. \u201cA maior incerteza \u00e9 quais avan\u00e7os veremos.\u201d<\/p><p><em>Escreva para Deepa Seetharaman em deepa.seetharaman@wsj.com<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Executivos e pesquisadores dizem que a necessidade da ind\u00fastria por dados de alta qualidade pode superar a oferta dentro de dois anos<\/p>\n","protected":false},"author":139,"featured_media":567556,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[103073],"tags":[2323],"autor-wsj":[102491],"coauthors":[102488],"class_list":["post-567561","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-the-wall-street-journal","tag-robos","autor-wsj-deepa-seetharaman"],"acf":[],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/posts\/567561","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/users\/139"}],"replies":[{"embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/comments?post=567561"}],"version-history":[{"count":9,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/posts\/567561\/revisions"}],"predecessor-version":[{"id":702863,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/posts\/567561\/revisions\/702863"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/media\/567556"}],"wp:attachment":[{"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/media?parent=567561"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/categories?post=567561"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/tags?post=567561"},{"taxonomy":"autor-wsj","embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/autor-wsj?post=567561"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/investnews.com.br\/inv-api\/wp\/v2\/coauthors?post=567561"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}