Com atraso, OpenAI lança assistente de voz

A startup de inteligência artificial disse que tornaria o recurso de voz disponível para um pequeno grupo de clientes pagantes do ChatGPT Plus a partir de terça-feira (30). O produto oferecerá quatro vozes predefinidas, mas não será capaz de imitar como outras pessoas falam, de acordo com a empresa. A OpenAI também afirmou que adicionou novos filtros para garantir que o software possa detectar e recusar alguns pedidos de geração de música ou outras formas de áudio protegido por direitos autorais.

A opção de voz foi o ponto central do evento de lançamento de produtos da OpenAI em maio para o GPT-4o, uma versão atualizada do seu modelo GPT-4 que é melhor em lidar com texto, áudio e imagens em tempo real. A startup havia introduzido uma opção mais limitada para o ChatGPT falar de volta aos usuários no ano passado, mas o novo recurso prometia ser mais rápido e se combinar com capacidades poderosas de reconhecimento de imagem para transformar o chatbot em um parceiro de conversa muito mais útil e dinâmico.

A OpenAI disse anteriormente que pretendia lançar o assistente de voz para um pequeno grupo de assinantes pagos do ChatGPT Plus no final de junho, mas decidiu que precisava de mais um mês para “atingir nosso padrão para lançamento”. A empresa afirmou que estava trabalhando na capacidade do software de detectar e se recusar a responder a certos tipos de conteúdo e garantir que pudesse processar efetivamente solicitações de milhões de usuários.

“Lançando gradualmente, podemos monitorar de perto o uso e melhorar continuamente as capacidades e a segurança do modelo com base no feedback do mundo real”, disse a empresa em um comunicado. A OpenAI também reiterou seu plano de lançar o recurso de voz para todos os seus assinantes pagos do ChatGPT Plus na primavera.

A empresa disse que ainda está trabalhando em recursos de vídeo e compartilhamento de tela que foram demonstrados durante o evento de maio. Esses recursos ainda não têm data de lançamento.

Como resultado, o recurso de voz terá uma lista mais limitada de capacidades para começar. Por exemplo, o chatbot não poderá acessar um recurso de visão computacional que permitiria oferecer feedback falado sobre os movimentos de dança de uma pessoa simplesmente usando a câmera do smartphone.