Os problemas são um sinal de alerta para a expansão da IA, já que podem limitar a utilidade de novas ferramentas poderosas justamente quando milhões de usuários começam a depender delas para aumentar a produtividade.

Nos últimos meses, a demanda explodiu por IA “agêntica”, ferramentas autônomas que usam a tecnologia para executar tarefas de forma independente, desde escrever código de software até agendar visitas a imóveis para corretores. As empresas têm corrido para garantir capacidade de computação suficiente para atender uma base crescente de clientes, que também está aumentando significativamente o uso de IA.

“Todo mundo fala sobre petróleo, mas acho que o que o mundo está realmente em falta são tokens”, disse Ben Pouladian, engenheiro e investidor de tecnologia baseado em Los Angeles. Um token é uma unidade de medida na IA para rastrear quanto recurso computacional é usado em uma tarefa. “A IA não é mais apenas um chatbot que usamos para pedir uma receita enquanto estamos na frente da geladeira. Ela está orquestrando tarefas, está ficando mais inteligente”, disse Pouladian.

Tudo isso aponta para um problema clássico que já apareceu em outros ciclos tecnológicos ao longo da história, desde a expansão ferroviária no século 19 até o boom das telecomunicações e da internet no início dos anos 2000.

A demanda está crescendo muito mais rápido do que as empresas conseguem acessar recursos e construir infraestrutura. Historicamente, aumentos de preço têm sido uma das únicas formas de lidar com esse tipo de escassez, mas essa medida pode ser perigosa para empresas de IA de ponta, que disputam ferozmente usuários.

Falhas no Claude

Os preços de aluguel por hora de GPUs, os chips usados para treinar e executar modelos de IA, dispararam desde o outono. A Anthropic, criadora do popular chatbot Claude e do aplicativo viral Claude Code, tem enfrentado recentemente falhas frequentes. A empresa passou a limitar a oferta de computação aos usuários em horários de pico, mas o lançamento foi marcado por reclamações de clientes dizendo que atingem o limite rápido demais.

A OpenAI cancelou seu aplicativo de geração de vídeo Sora em parte para liberar recursos computacionais para produtos de programação e corporativos que funcionariam em um novo modelo de IA, codinome Spud, segundo o Wall Street Journal.

O uso de tokens na API da OpenAI — plataforma onde principalmente clientes corporativos acessam seu software — passou de seis bilhões por minuto em outubro para 15 bilhões por minuto no fim de março.

“Eu passo muito tempo tentando encontrar qualquer capacidade de computação de última hora disponível”, disse Sarah Friar, diretora financeira da OpenAI, em uma entrevista pública recente com um investidor. “Estamos fazendo algumas trocas muito difíceis no momento sobre coisas que não estamos perseguindo porque não temos computação suficiente.”

No fim do ano passado, a CoreWeave, uma das maiores empresas públicas de nuvem de IA, aumentou os preços em mais de 20% e passou a exigir que clientes menores assinassem contratos de pelo menos três anos, contra um ano anteriormente. Analistas do Bank of America retomaram cobertura da empresa com recomendação de “compra” no mês passado, dizendo que a demanda deve superar a oferta até pelo menos 2029.

Os preços no mercado spot para acessar GPUs da Nvidia — chips gráficos usados em data centers — subiram fortemente nos últimos meses em toda a linha de produtos, segundo a Ornn, uma empresa de dados de Nova York que publica informações de mercado e estrutura produtos financeiros com base no preço de GPUs.

Alugar uma das GPUs mais avançadas da geração Blackwell da Nvidia por uma hora custa US$ 4,08, alta de 48% em relação aos US$ 2,75 de dois meses atrás, segundo o índice Ornn Compute Price.

“Existe uma enorme restrição de capacidade que não é como nada que eu tenha visto nos mais de cinco anos em que estou tocando esse negócio”, disse J.J. Kardwell, CEO da Vultr, empresa de infraestrutura em nuvem. “A questão é: por que não simplesmente implantamos mais equipamentos? Os prazos são longos. A construção de data centers leva tempo, e a energia disponível até 2026 já está toda comprometida.”

Estamos usando tanta IA que a capacidade de computação está acabando

Falhas no Claude