O futuro da Inteligência Artificial está aqui, acabou de ser apresentado pela equipe da OpenAI, os mesmos por trás do ChatGPT, e parece ser algo verdadeiramente perturbador. Acabaram de mostrar o novo sintetizador de voz da empresa liderada por Sam Altman: Voice Engine, que seria capaz de clonar qualquer pessoa apenas ouvindo um áudio de 15 segundos do indivíduo em questão.

Talvez muitos não tenham isso em mente e considerem essa organização como uma empresa privada, mas na realidade a OpenAI é uma instituição de pesquisa focada na área de Inteligência Artificial. Por isso, o ChatGPT seria apenas um anexo de sua ampla gama de áreas de trabalho, apesar de sua popularidade inegável em nível global.

Sam Altman - ChatGPT | Composição

Agora, esta empresa lançou uma nova ferramenta que poderia revolucionar a forma como interagimos com o conteúdo digital, seu sintetizador de voz chamado por enquanto de Engine de Voz. Uma tecnologia disruptiva capaz de criar vozes sintéticas realistas a partir de amostras de áudio de apenas 15 segundos de duração.

Criar um clone perfeito da sua voz com uma base tão curta e fácil de obter levanta muitas dúvidas e incertezas sobre o que está por vir para a indústria e a segurança pessoal de cada potencial usuário ou "vítima" dessas novidades.

A Voice Engine da OpenAI levanta muitas questões sobre privacidade

A ferramenta, de acordo com o que foi publicado pelos próprios membros da OpenAI em seu blog oficial, tem tido acesso limitado desde o final do ano de 2022, mas atualmente está sendo utilizada em parte por quase qualquer pessoa através da função Ler em voz alta disponível no aplicativo ChatGPT.

Esta função permite aos usuários ouvir as respostas do chatbot com uma voz um pouco natural e expressiva. Aqueles que tiveram a oportunidade de experimentá-la poderão constatar que, pelo menos até março de 2024, a voz gerada pela Inteligência Artificial em espanhol tem múltiplos problemas de dicção e fluidez que a denunciam. Mas sua versão em inglês é quase perfeita, soa como um humano.

Agora as coisas estão prestes a atingir um novo nível absoluto com o sintetizador de Voice Engine, que tem um grande potencial para uma ampla gama de aplicações. Poderia ser usado para fins educativos, para traduzir podcasts para novos idiomas diferentes do original em que foram produzidos, ou até mesmo para apoiar pessoas com deficiências de fala.

OpenAI (Unsplash)

As amostras de áudio disponíveis no site da OpenAI são impressionantes. As vozes sintéticas soam relativamente naturais e fluídas, embora com um leve toque robótico em alguns casos, especialmente nos trechos em espanhol, mas é óbvio que é apenas uma questão de tempo para que isso seja aprimorado.

O que acontece com o uso indevido do Voice Engine: isso é o que diz a OpenAI

Os próprios colegas do The Verge destacam como as pessoas da OpenAI reconhecem que o uso indevido dessa tecnologia é uma preocupação importante. Por esse motivo, por enquanto, o Voice Engine está disponível apenas para um grupo limitado de usuários no momento. A empresa deseja investigar mais a fundo como proteger a ferramenta para evitar que seja utilizada para disseminar informações incorretas ou para clonar vozes sem consentimento.

"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades. Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se implementar essa tecnologia em escala e como fazê-lo."

É isso que a própria equipe da OpenAI destaca na apresentação desta tecnologia evoluída, onde apenas alguns segundos de áudio de amostra seriam suficientes para gerar uma réplica quase exata da voz de qualquer indivíduo. Em um contexto onde seu uso mais óbvio poderia ser, por exemplo, nestes momentos de campanhas eleitorais, com o risco da criação de algum áudio deepfake que poderia alterar as tendências e votações de forma definitiva.

No lado mais inocente das coisas, o Voice Engine poderia democratizar o acesso à informação e comunicação, permitindo que pessoas com deficiências na fala se expressem com mais facilidade ou reproduzindo automaticamente versões dubladas em diferentes idiomas de produtos de áudio, como podcasts.

Mas em grande parte, estamos diante de algo que não pode ser completamente controlado ou regulado neste momento e isso é assustador.