Tecnologia

Adobe trabalha em 'Photoshop para voz' que permite editar o que é dito

Jin explicou depois da apresentação que a Adobe já está considerando os impactos da tecnologia

NULL
NULL

 src=A Adobe, empresa que cria diversos programas de edição de imagem e vídeo e conhecida pelo ser a desenvolvedora do editor de imagens Photoshop, anunciou que está trabalhando em uma nova tecnologia que deve permitir que uma gravação de áudio, com voz, seja editada do mesmo jeito que se edita um texto. Além de simplesmente cortar trechos do que foi dito, é possível trocar a ordem das palavras e até criar frases inteiramente novas – o programa é capaz de sintetizar a voz a partir de fonemas extraídos do resto da gravação.

A tecnologia, chamada de "VoCo" ("conversão de voz") foi demonstrada durante o evento "Adobe MAX 2016", na sexta-feira (4). Na demonstração, o programador Zeyu Jin, da Adobe, alterou uma gravação em que o ator Michael Key dizia "eu beijei minha mulher e os cachorros" para "eu beijei Jordan [Peele, o ator que estava no palco] três vezes". A parte "inventada" da frase foi sintetizada a partir do resto da gravação e toda a edição ocorreu em texto. (Assista à demonstração.)

Peele se levantou da cadeira fingindo irritação e brincou com Jin: "você é um bruxo, é um demônio". Jin retrucou: "é, eu tenho magia".

A voz não fica perfeita e há claramente sinais de que ela foi construída através de um computador, mas a simplicidade da operação impressionou o público no evento. Há risco de que o recurso possa ser abusado para forjar gravações ou burlar sistemas de segurança.
Jin explicou depois da apresentação que a Adobe já está considerando os impactos da tecnologia, adicionando "marcas d'água" no áudio que podem permitir identificar quando um áudio foi manipulado pelo recurso. "Conforme temos resultados melhores, deixando [a voz] quase indistinguível da verdadeira, nós nos esforçamos ainda mais para permitir que [a edição] seja detectável", explicou ele.

Ainda assim, o VoCo colocaria a sintetização de voz ao alcance de qualquer um, criando um possível risco sistemas de biometria que autenticam pessoas através da voz. O fato de que a própria Adobe resolveu demonstrar o recurso com uma brincadeira já é um sinal do que se pode esperar quando todos tiverem acesso à tecnologia.

Uma limitação é que o VoCo precisa analisar cerca de 20 minutos de gravação para ter qualidade na geração dos fonemas das palavras que forem adicionadas.

O VoCo ainda é um protótipo e não há previsão oficial de quando o recurso será adicionado aos programas da Adobe. É possível que ele venha a fazer parte do Adobe Audition, o editor de áudio da coleção "Creative Suite". Dada a natureza da tecnologia, é improvável que ela funcione de maneira igual em todos os idiomas, o que significa que o suporte ao português pode demorar ainda mais.

Reprodução; G1