Siga nossas redes

Inteligência Artificial

O ChatGPT agora tem voz. E essa é a verdadeira revolução da inteligência artificial

A possibilidade falar com a IA dá a quem estava fora deste novo mundo um lugar à mesa

Olha quem está falando agora!

Dois anos depois de popularizar o conceito de inteligência artificial – pelo menos entre os entusiastas de tecnologia –, o ChatGPT pode finalmente fazer o resto do mundo começar a entender a IA.

O modo de voz avançado do ChatGPT chegou a usuários do Brasil há algumas semanas – e falando em português do Brasil. Agora, extrair o potencial do robozinho mais famoso do mundo não é privilégio dos “senhores dos prompts“: é tão simples quanto falar.

Falar mesmo, trocar ideia, bater um lero, prosear. Com o novo módulo, o ChatGPT tornou-se um agente digital que mimetiza com competência a comunicação oral humana. É uma notável evolução quando se compara à função de voz anterior.

O modo de voz avançado tem mais fluência, mostra que o GPT agora é capaz de ler contextos, responde com nuances e tem habilidade até para captar sutilezas sofisticadas da fala. Ainda incorpora tudo isso à sua memória infinita, o que, com o tempo, gera uma personalização bem interessante.

LEIA MAIS: Acemoglu, Nobel de Economia, crê que impacto de IA na produtividade é baixo. Produtividade de quem?

Usar a IA mais quente do momento significou até aqui colocar em prática as habilidades da escrita, o que constitui um desafio enorme para muitas pessoas, especialmente no Brasil. Se você troca e-mails com frequência, sabe do que estou falando.

Em junho, o CEO da Meta, Mark Zuckerberg, disse que o usuário brasileiro usa quatro vezes mais a função de mensagens de voz no WhatsApp do que o resto do mundo. Quatro vezes mais. Somos um povo falante e que, por questões históricas conhecidas, excluiu a maior parte de sua população do processo de alfabetização mais complexo.

O profundo abismo educacional no Brasil significou também deixar a inteligência artificial fora do alcance da maioria. A possibilidade de falar com a IA representa potencial de inclusão. Uma IA que domina a linguagem falada é capaz de se conectar com seus usuários em níveis muito mais avançados do que uma que simplesmente troca mensagens com eles.

Custos e funcionalidades

Para quem se dispõe a pagar os US$ 20 mensais pela versão Plus, está garantida até uma hora diária de resenha com o ChatGPT. Quem usa a versão gratuita tem acesso a só 15 minutos por mês da funcionalidade, o que limita significativamente o alcance da ferramenta.

Assinante da versão paga, ativei a nova função para organizar as ideias que fundamentam este texto e aproveitei para questionar sobre as nada triviais 20 doletas.

“Quanto à questão do custo, é verdade que ainda é uma barreira, mas com o tempo, como ocorre com muitas tecnologias, o preço pode se tornar mais acessível, permitindo uma adoção ainda mais ampla.”

Modo de voz avançado do chatgpt do autor do texto

Otimista, não? Vamos torcer.

No episódio de IA: Modo de Usar que abre este texto, o especialista em IA Pedro Burgos faz uma demonstração sobre o modo avançado do GPT. Logo no comecinho do vídeo, você vai ver que é possível pedir para o produto da OpenAI mudar até o tom das respostas – no caso, Burgos se frustrou com uma explicação algo óbvia e tecnicista e pediu mais ânimo para a ferramenta, que imediatamente mudou de vibe.

LEIA MAIS: Você não precisa ser ‘o cara da TI’ para usar o ChatGPT como um cientista de dados

Parece uma coisa boba, mas essa capacidade de alterar a própria comunicação e imitar a emoção humana é a base do potencial revolucionário da nova função. É muito mais fácil engajar com o “novo GPT” porque ele realmente parece um humano falando, é bem parecido com uma ligação telefônica. Ele reage ao tom do usuário e “raciocina” enquanto fala, destaca Burgos.

É uma conversa, não a frustrante experiência de tentar acertar o comando da Alexa. E isso faz toda a diferença para a parte da humanidade que não está interessada em entender o conceito de “prompt“.

As funcionalidades são quase infinitas, e algumas delas estão demonstradas no vídeo. Praticar novos idiomas, se preparar para uma entrevista de emprego, treinar para uma apresentação no trabalho, ter um guia culinário enquanto cozinha, fazer meditação. Dá até para cantar para a IA e pedir dicas sobre como melhorar a técnica vocal – sim, eu testei essa função enquanto escrevia este texto e ganhei conselhos sobre dicção e projeção da voz.

Karaokê, me aguarde.

A imagem mostra a silhueta preta de uma pessoa de perfil, segurando um celular próximo à boca, com ondas sonoras brancas no fundo azul saturado.
Foto: Getty Images/ Mensent Photography

Agora, vamos às limitações – e aos avisos

Se a conexão homem-máquina é facilitada por meio da voz, fica também mais fácil usar errado o novo modo de voz do ChatGPT.

Na “entrevista” com a nova ferramenta que baseou parte deste texto, o GPT alerta sobre o risco de uma ligação emocional que torne o usuário dependente do modo de voz avançado para tomar decisões ou para a validação pessoal. Ele reconheceu também o risco de uma humanização excessiva da ferramenta que leve o usuário a negligenciar relações verdadeiramente humanas.

Lembre-se: o ChatGPT parece seu amigo. E conversar com ele num tom amistoso pode tornar a experiência de uso mais agradável e produtiva, mas ele não é seu amigo – simplesmente porque ele é, na verdade, um complexíssimo modelo matemático que usa seus cálculos para saber como uma palavra costuma se ligar à outra no idioma em que está sendo usado.

É estranho escrever isso, mas realmente chegamos a esse ponto: é feito para parecer uma pessoa, é útil que pareça ser uma pessoa, mas a IA não é uma pessoa.

LEIA MAIS: Como fazer logotipo e ilustração com inteligência artificial

O modelo de linguagem também tem suas limitações. As informações usadas no treinamento do modo de voz avançado do ChatGPT vão até o mês de outubro de 2023. Isso significa que ele não sabe a previsão do tempo de amanhã ou o resultado do último jogo entre São Paulo e Corinthians.

Conversas muito longas ou contextos muito complexos também são um problema para a ferramenta e podem gerar respostas desconexas ou incompletas. E, como é possível em toda IA, há riscos de incorreções, alucinações, inadequações ou vieses.

Os programadores têm todo o interesse do mundo – financeiro, claro – para que o ChatGPT seja o mais neutro possível e não se sinta à vontade para opinar sobre temas polêmicos, mas como isso não vale para as informações que serviram de base para o seu treinamento, todas essas coisas são possíveis. Com o tempo, atualizações tendem a diminuir o problema.

E mais um alerta: a OpenAI diz que o modo avançado de voz às vezes pode sofrer um pouco para entender afirmações irônicas. O poeta Oscar Wilde já disse que “o sarcasmo é a mais baixa forma de humor, mas a mais elevada forma de inteligência”.

Pelo menos por enquanto, a humanidade está a salvo.

Abra sua conta! É Grátis

Já comecei o meu cadastro e quero continuar.