A revolução da IA está prestes a ir muito além dos chatbots.

De novas bactérias devoradoras de plástico e novas curas do câncer até robôs auxiliares e carros autônomos, a tecnologia da IA generativa — que ganhou destaque como o motor do ChatGPT — está pronta para mudar nossa vida de maneiras que fazem os bots falantes parecerem meras brincadeiras.

Embora tenhamos a tendência de equiparar o atual boom da inteligência artificial a computadores que conseguem escrever, falar, programar e fazer imagens, a maioria dessas formas de expressão é desenvolvida sobre uma tecnologia subjacente, chamada “transformador”, que tem aplicações muito mais amplas. 

Anunciados pela primeira vez em um artigo de pesquisadores do Google de 2017, os transformadores são um tipo de algoritmo de IA que permitem que os computadores entendam a estrutura subjacente de qualquer pilha de dados — sejam palavras, dados de direção ou os aminoácidos em uma proteína — para que possam gerar seu próprio output.

Os transformadores abriram caminho para a OpenAI lançar o ChatGPT há dois anos, e várias empresas agora estão trabalhando em um modo de usar a inovação de maneiras diferentes, desde a Waymo em seus táxis-robôs até uma startup de biologia chamada EvolutionaryScale, cujos sistemas de IA estão projetando novas moléculas de proteína. 

As aplicações dessa descoberta são tão amplas que, nos sete anos desde que a pesquisa do Google foi publicada, ela foi citada em outros artigos científicos mais de 140 mil vezes.

LEIA MAIS: AI Studio: a poderosa inteligência artificial do Google que pouca gente está usando

Não é exagero dizer que essa coleção de algoritmos é a razão pela qual a Nvidia é agora a empresa mais valiosa do mundo, que os data centers estão surgindo por todos os EUA e pelo mundo, aumentando o consumo e o preço da eletricidade, e que os executivos-chefes de empresas de IA estão frequentemente — e talvez erroneamente — afirmando que a IA com capacidades humanas está logo aí.

Da tradução de texto ao aprendizado universal

Os humanos sempre agiram com base na convicção de que o universo tem uma ordem subjacente — mesmo quando debatem se a fonte dessa ordem é divina. A IA moderna é, em certo sentido, mais uma validação da ideia de que todos os cientistas desde Copérnico realmente estavam no caminho certo.

A IA moderna é competente no reconhecimento de padrões de informação. Mas as abordagens anteriores impunham sérios limites ao que mais ela poderia fazer. Com a linguagem, por exemplo, a maioria dos sistemas de IA só conseguia processar palavras uma de cada vez e avaliá-las apenas na sequência em que apareciam, o que limitava sua capacidade de entender o que significavam.

Os pesquisadores do Google que escreveram esse artigo seminal de 2017 estavam focados no processo de tradução de idiomas. Eles perceberam que um sistema de IA que pudesse digerir todas as palavras em um texto e colocar mais peso nos significados de algumas delas do que no de outras — quer dizer, lidas no contexto — conseguiria fazer traduções muito melhores.

Por exemplo, na frase “I arrived at the bank after crossing the river” (Cheguei à margem depois de atravessar o rio), uma IA baseada em transformador sabe que a frase termina em “rio” em vez de “rua”, e vai traduzir “bank” como margem, não como um lugar para depositar seu dinheiro.

Em outras palavras, os transformadores funcionam descobrindo como cada informação obtida pelo sistema se relaciona com todas as outras informações recebidas, diz Tim Dettmers, cientista pesquisador de IA do Instituto Allen para Inteligência Artificial, sem fins lucrativos.

LEIA MAIS: A IA está fazendo grande parte do trabalho na publicidade. Pagar por hora ainda faz sentido?

Esse nível de compreensão do contexto permite que os sistemas de IA baseados em transformadores não apenas reconheçam padrões, mas prevejam o que poderia vir a seguir, gerando assim suas próprias novas informações. E essa capacidade pode se estender a outros dados além de palavras.

“De certa forma, os modelos estão descobrindo a estrutura latente dos dados”, diz Alexander Rives, cientista-chefe da EvolutionaryScale, empresa que ele cofundou no ano passado depois de trabalhar em IA para a Meta Platforms, a controladora do Facebook.

A EvolutionaryScale está treinando sua IA nas publicações de sequências de todas as proteínas às quais seus pesquisadores conseguem ter acesso e em tudo o que sabemos sobre elas. Usando esses dados, e sem a ajuda de engenheiros humanos, sua IA é capaz de determinar a relação entre uma determinada sequência de blocos de construção molecular e como a proteína criada funciona no mundo.

Pesquisas anteriores relacionadas a esse tópico, que estavam mais focadas na estrutura das proteínas do que em sua função, são a razão pela qual o chefe de IA do Google, Demis Hassabis, compartilhou o Prêmio Nobel de Química de 2024. O sistema que ele e sua equipe desenvolveram, chamado AlphaFold, também é baseado em transformadores.

A EvolutionaryScale já criou uma molécula de prova de conceito. É uma proteína que funciona como aquela que faz a água-viva brilhar, mas a sequência proteica inventada pela IA é radicalmente diferente de qualquer coisa criada pela natureza.

LEIA MAIS: A inteligência artificial ganha espaço nos escritórios de advocacia

Seu objetivo final é permitir que todos os tipos de empresas — desde empresas farmacêuticas que produzem novos medicamentos até as de química sintética que trabalham em novas enzimas — criem substâncias que seriam impossíveis sem sua tecnologia. Isso pode incluir bactérias equipadas com novas enzimas que conseguem digerir plástico ou novos medicamentos adaptados a um tipo de câncer específico.

De chatbots a Transformers da vida real

O objetivo de Karol Hausman é criar uma IA universal que possa fazer qualquer robô funcionar. “Queremos desenvolver um modelo que consiga fazer qualquer robô realizar qualquer tarefa, incluindo todos os robôs que existem hoje e aqueles que ainda nem foram desenvolvidos”, diz ele.

A startup de Hausman, com sede em San Francisco, a Physical Intelligence, tem menos de um ano, e o próprio Hausman trabalhou no setor de IA do Google, o DeepMind. Sua empresa começa com uma variante do mesmo grande modelo de linguagem que você usa quando acessa o ChatGPT. O mais novo desses modelos de linguagem também incorpora e pode trabalhar com imagens. Eles são fundamentais para a forma em que os robôs de Hausman operam.

Em uma demonstração recente, um par de braços robóticos da Physical Intelligence faz uma das tarefas mais difíceis de toda a robótica, acredite ou não: dobrar roupas. As roupas podem assumir qualquer forma e exigem flexibilidade e destreza surpreendentes para serem manuseadas, de modo que os especialistas não conseguem roteirizar a sequência de ações que darão a um robô, isto é, exatamente como mover seus membros para pegar e dobrar a roupa.

O sistema da Physical Intelligence pode remover roupas de uma secadora e dobrá-las ordenadamente usando um sistema que aprendeu a fazer essa tarefa por conta própria, sem nenhuma interferência de humanos além da oferta de uma montanha de dados. Essa demonstração, e outras semelhantes, foi impressionante o suficiente para que, no início deste mês, a empresa levantasse US$ 400 milhões de investidores, incluindo Jeff Bezos e a OpenAI.

LEIA MAIS: Google planeja lançar projeto de IA que controla o navegador, diz site

Em outubro, pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) anunciaram que estão buscando uma estratégia semelhante baseada em transformadores para criar cérebros de robôs que possam receber grandes quantidades de dados de várias fontes, e então operar com flexibilidade em uma ampla gama de ambientes. Em um caso, eles fizeram vários filmes de um braço robótico comum colocando comida de cachorro em uma tigela, e depois usaram os vídeos para treinar outro robô com inteligência artificial para que fizesse o mesmo.

Robô, dirija meu carro

Como na robótica, pesquisadores e empresas que trabalham com carros autônomos estão descobrindo como usar “modelos de linguagem visual” baseados em transformadores, que podem receber e conectar não apenas a linguagem, mas também imagens.

A Nuro, com sede na Califórnia, e a Wayve, com sede em Londres, além da Waymo, de propriedade da Alphabet, empresa mãe do Google, estão entre as que trabalham com esses modelos. 

Esse é um distanciamento das abordagens pré-transformadores para a direção autônoma, que usavam uma mistura de instruções escritas por humanos e tipos mais antigos de IA no processamento de dados de sensores para identificar objetos na rua. Os novos modelos baseados em transformadores são essencialmente um atalho para dar aos sistemas autônomos o tipo de conhecimento geral sobre o mundo que antes era muito difícil de garantir.

Pesquisadores da Waymo em um artigo recente, por exemplo, mostraram como o uso da própria IA comercial do Google, chamada Gemini, poderia dar ao seu sistema de direção autônoma a capacidade de identificar e dar preferência a objetos nos quais não havia sido treinado, como um cachorro atravessando a rua.

Um ajudante em vez de um substituto

Por mais poderosos que sejam, esses sistemas ainda têm limites e imprevisibilidade, o que significa que não serão capazes de automatizar completamente o trabalho humano, diz Dettmer.

LEIA MAIS: OpenAI desafia hegemonia do Google com nova ferramenta de pesquisa turbinada por ChatGPT

A IA no coração do EvolutionaryScale, por exemplo, pode sugerir novas moléculas para os humanos experimentarem no laboratório, mas estes ainda precisam sintetizá-las e testá-las. E os modelos baseados em transformadores estão longe de ser confiáveis o suficiente para assumirem completamente um veículo autônomo.

Outra limitação é que eles são tão inteligentes quanto os dados com os quais são treinados. Grandes modelos de linguagem como os da OpenAI estão começando a se deparar com restrições do volume de palavras escritas úteis disponível ao mundo — e isso com a internet cheia de texto. Para que robôs ou carros autônomos aprendam dessa maneira, são necessárias enormes quantidades de dados sobre o que acontece quando tentam funcionar no mundo real — uma das razões pelas quais atualmente há uma corrida entre as empresas para adquirir esses dados.

Essas limitações são aparentes nos robôs da Physical Intelligence. Seu sistema aprendeu sozinho a dobrar a roupa, mas antes que consiga chegar à sua casa e assumir essa tarefa para você, ele teria que reaprender o processo da maneira específica de sua própria casa. Isso exigiria uma enorme quantidade de tempo dos engenheiros, além de dinheiro para treinar o modelo.

“Quero ter certeza de que fui capaz de definir expectativas”, diz Hausman, o CEO. “Por mais orgulho que tenhamos de nossa realização, ainda estamos no começo.” 

Escreva para Christopher Mims em [email protected]

Traduzido do inglês por InvestNews

Presented by