blog

PORQUE LOCUTORES SÃO MELHORES QUE MÁQUINAS HOJE (E NUM FUTURO BREVE)

Qualquer um que olha pro passado entende o valor da inovação tecnológica na construção do progresso. Comemos muito arroz e feijão para chegar até aqui. E eu, claro, não penso diferente. Portanto, em prol da clareza:

  1. Quero escrever para organizar o que eu estou vendo
  2. Quero fomentar discussões mais práticas e detalhadas (e, talvez, menos apocalípticas)
  3. Meu viés é de um locutor, ex-produtor de áudio, ex-músico e curioso
  4. A ideia é trazer a discussão olhando para o que temos agora e aventar um futuro que está mais próximo, mas evitar a complexidade das discussões de um futuro distante
  5. Esse título é clickbait (não é importante saber se somos melhores que as máquinas, mas quais as diferenças). Mas já adianto que eu acho que somos melhores. Não incrivelmente melhores, mas melhores o suficiente para não perdermos trabalhos para os robôs

Retirado isso da frente, vamos ao que interessa:

  1. INTERPRETAÇÃO x INTERPRETAÇÃO

Na síntese de voz (aquele processo em que a máquina gera uma voz a partir de texto, ou Text To Speech ou TTS) ainda não é possível fazer com que a voz imbua significado além daquele textual, a notar: sarcasmo, simpatia, segurança, hesitação, coloquialidade etc.

A tal da rede neural em voz funciona assim: ela olha para o material gravado de um locutor e vai fazendo conexões (partindo de uma base de um sistema linguístico com outra base de dados). Ela nota que o locutor acaba as frases de uma certa maneira; que as perguntas têm certa melodia; que a pronúncia de “seisceintos” é bem paulistana — são fenômenos que acontecem sempre (ou quase sempre) no material analisado. A partir daí, quando você dá um texto para ela, ela passa a régua e “remonta” a voz do locutor cruzando o contexto que ela aprendeu com o contexto que ela recebeu no texto.

Ou seja, tudo que é diferente não entra no modelo. Tudo que é possível não entra no modelo. Exemplo:

Banho de mar? Não. Banho de chuveiro é o que há.

A voz sintética nesse caso olharia para os contextos parecidos do material treinado e escolheria uma entonação um tanto literal: Não. (afinal, a maioria dos “nãos” são um tanto literais). É impossível para a máquina pensar em possibilidades como: será que esse personagem quer mostrar o absurdo da sugestão? Será que ela tá com preguiça de sair de casa? Será que tem um sorriso maroto de quem já sabe a resposta? E, mesmo que ela tivesse a resposta dessas perguntas, o que é um “não” repulsivo ou preguiçoso ou malandro?

Curiosamente uma palavra descreve dois processos distintos no trabalho de um locutor: interpretar. Primeiro, é necessário interpretar qual é a mensagem (qual o contexto, que mensagem eu quero passar, pra quem é) para depois interpretar a mensagem (executar, tirar do mundo das ideias para o papel — ou ar). E esses dois processos são completamente diferentes para a máquina.

Mas vamos olhar um pouco mais para frente e aventar mecanismos usando um pouco do que existe. E se eu usasse um material especial para treinar a máquina? Um banco de interpretações repulsivas, outro de preguiçosas e outro de malandras. Aí o usuário poderia escolher: esse “não” é repulsivo. Play. Hmmm não gostei. Vou tentar preguiçoso. Play. Hmmm próximo!

Imagine um sistema em que o usuário tivesse que escolher em uma lista de 200 (ou seriam 2000?) sentimentos/significados para cada palavra e/ou frase? E sentimentos significados combinados (repulsivo e preguiçoso)? Nada prático.

Então vamos além e imaginar uma máquina capaz de fazer isso: ela teria de olhar para todo o conteúdo audiovisual produzido nos últimos anos e qual foi o entendimento geral de seres humanos de cada uma dessas entonações, ritmos, inflexões etc para poder fazer escolhas. E esse tipo de coisa muda o tempo todo. Estamos falando de uma grandeza de dados muito diferente daquela usada para treinar modelos de voz sintética.

Além disso, imagine treinar 2000 modelos com diferentes sentimentos/significados para uma voz apenas? Não é à toa que o chat GPT vai só até 2021. Essa tecnologia tem limites. Pelo menos hoje e em um futuro breve.

Portanto, aqui tem dois pontos importantes: primeiro que, do jeito que a tecnologia está estruturada hoje, ela não será capaz de reproduzir sentimentos/significados extra textuais, mesmo com todo o processamento do mundo. E segundo: mesmo que esteja, ainda precisaríamos de uma entidade pensando em que escolhas fazer para se chegar em um resultado alvo (esse é um não preguiçoso ou nojento?). Uma máquina não é capaz disso. Um ser humano, sim, mas seria muito mais prático ele ligar um microfone e gravar do que ter que gerenciar alavancas.

2. SATURAÇÃO/MID

Se todo mundo tem disponível a mesma ferramenta, tudo que é produzido fica muito parecido. E, portanto, a percepção do resultado produzido por essa ferramenta muda rapidamente e sem controle nenhum. O que era novo, fica velho. O que era diferente, fica igual. O que poderia ser credibilidade, passa a ser falso. Bem rápido.

Basta ouvir 3 vezes a mesma voz em conteúdos no Instagram/TikTok para que você sinta uma repulsa por ela e pelo canal que a está usando: mesmo que soe “natural” em alguns contextos, pela exposição eu já sei que alguma coisa está errada: estou sendo enganado? Essa mensagem é verdadeira? Porque o dono do canal não usou sua própria voz?

3. O MITO DO GANHO DE PRODUTIVIDADE

Ao contrário de outras áreas da produção audiovisual, a locução não demanda muito tempo para ser produzida. Portanto, se compararmos o processo de se gerar uma voz por síntese com a gravação e edição de locução, nenhum dos dois processos seria incrivelmente mais rápido — ainda mais se você levar em consideração a qualidade do processo criativo da locução no audiovisual.

No melhor cenário (entrei no site, colei meu roteiro numa caixinha, fiz o download de uma locução sintética) eu só ganharia algumas horas em relação a pedir para o locutor gravar e esperar chegar o arquivo. E o trabalho é o mesmo: “máquina, me dê uma locução” versus “locutor, me dê uma locução”.

E para peças longas? Com alguns minutos eu gero uma locução de um audiolivro que um locutor demoraria dias para gravar. Ainda assim, mesmo desconsiderando a diferença de qualidade entre um e outro, todo trabalho de IA generativa precisa ser revisado. O sistema ainda tem falhas, os livros não são escritos todos da mesma maneira, as pontuações às vezes são estranhas (existe uma grande diferença da língua escrita e a oral e o locutor está fazendo esse filtro o tempo todo), existem neologismos e seria necessário um ser humano para revisar o trabalho antes de publicar (como é o caso com todo material gerado por IA generativa). E aqui estamos falando de um trabalho de revisão diferente do feito normalmente em cima de uma gravação de um locutor. Seria uma escuta procurando incongruências e procurando por soluções que talvez não existam: é possível que determinado parágrafo tenha uma pontuação impossível da voz sintética interpretar corretamente — o que eu faço? Mudo a pontuação? Será que o ajuste é possível?

E adivinha quanto tempo demora para revisar um livro de 10 horas? Pelo menos 10 horas (se tudo estiver correto). Então, mais uma vez: qual é o ganho real?

4. CONTROLE — TIMBRE

Parte essencial do trabalho dos locutores é controlar a exposição da sua voz. Quando fazemos uma campanha com alcance/impacto grande, nossa voz fica atrelada àquela mensagem/marca por muito tempo. E isso tem vários desdobramentos (deliberados ou não). Fazer escolhas boas é construir uma percepção coletiva do que sua voz significa — afinal, milhões de pessoas ouviram a sua voz em tal e tal contexto (sua carreira é definida assim). E a marca sabe disso: ao contratar o locutor, ela empresta para a sua marca tudo que aquela voz traz.

Se não há controle, quem garante que a voz para sua marca não seja usada pelo seu concorrente? Ou então a voz que você escolheu para o vídeo que vai tocar no seu evento de sustentabilidade não tenha sido usada por um canal político extremo que fala que não existe aquecimento global e viralizou (no mal sentido)? Ou então a voz do seu audiobook é aquela que foi usada mil vezes no TikTok e ninguém aguenta mais?

5. CRIME 1 — AS LEIS QUE TEMOS

Não estamos desprotegidos. Enquanto uma legislação mais específica não fica pronta temos o Código de Autorregulamentação Publicitária (do Conar), Código de Defesa do Consumidor, Estatuto da Criança e do Adolescente, Lei de Direitos Autorais e Lei Geral de Proteção de Dados para nos guiar. Muito cuidado! Usar a obra/voz de outrem sem autorização é crime há muito tempo.

Especialmente no nosso caso gostaria de destacar:

  1. Direito de Personalidade: na Constituição Federal e no Código Civil brasileiro os atributos da pessoa natural (incluindo sua voz) não podem ser utilizados sem a devida autorização do seu titular. Isso inclui tanto o uso para treinar a voz generativa quanto se por acaso aquela voz sintética imita a voz de alguém (independentemente do processo).
  2. Segredo de Negócio: aqui cito o manual da Associação Brasileira de Anunciantes: “A proteção ao segredo de negócio pode ser perdida se o segredo for tornado público. Por isso, considerando a característica de retroalimentação das interações e outputs gerados a partir da interação com seus usuários, é extremamente importante que as informações, práticas e/ou procedimentos que constituam segredos de negócio não sejam inseridos em plataformas de IA Generativa.”. Você colocaria o roteiro da campanha que ainda não saiu do seu cliente em uma máquina que a gente não sabe como usa os dados que ali estão?

6. CRIME 2 — O QUE ESTÁ POR VIR

Nos próximos anos vamos ver regulamentações importantes:

  1. No Brasil temos 4 PLs sobre o tema tramitando: 5051/2019, 21/2020, 240/2020, 872/2021 e principalmente 2338/2023, do Rodrigo Pacheco.
  2. Obras Derivadas: alguns processos jurídicos estão correndo no mundo que podem concluir que o material que está sendo gerado usando algum tipo de IA generativa que usa um grande banco de dados na sua rede neural é na verdade uma Obra Derivada justamente desse bando de dados. Isso quer dizer, entre outras coisas, que para usar esse material seria necessária a autorização dos autores das obras originais desse banco de dados, bem como a compensação correta.

7. ARTE

Uma característica indelével da arte é a conexão que temos com o artista: vejo como esse ser humano se expressa e aquilo me traz significado, porque sou feito da mesma coisa, sinto as mesmas coisas. Então ele me ajuda a me entender e me expressar.

A IA generativa foi relegada ao pastiche, que não nos diz nada. É vazia, porque precisamos do ciclo completo para nos relacionarmos. Quem criou? Em que contexto?

Podemos dizer a mesma coisa da cultura de massa, suas trends e chorumes? Será tudo uma cópia barata de tudo que veio antes? Nos meus dois centavos, não é a mesma coisa. Mesmo que a comunicação de massa tenha pastiche, ainda assim existem um milhão de escolhas humanas no processo: pessoas pensando em como outras pessoas vão entender tal mensagem (e isso nos faz mais conectados).

Esse pode não ser o argumento mais importante desse texto, levando em consideração a conexão que as pessoas têm por uma obra publicitária/informativa versus uma obra exposta em um museu, mas ainda assim é necessário navegar pela aversão atual pela IA, de maneira geral, e o uncanny valley, por exemplo.

8. VOZ DE ROBÔ NÃO TEM AGUDO — O LIMITE DE 10kHz

O conjunto de bases de dados públicos usados para desenvolvimento de sistemas de voz artificial nesses últimos 10 anos têm taxas de amostragem de 22,05kHz ou 24kHz. Portanto, as vozes geradas tem 10–11kHz no máximo (teorema de Nyquist). Uma gravação comum (e nossa audição) vai até 20kHz.

Esses 9–10kHz de perda significa que não temos agudo na voz sintética. É justamente no agudo que se encontram informações importantes da qualidade do áudio: são elementos (harmônicos, formantes) que caracterizam timbre e distinção entre vozes.

Esse não é o padrão atual da pós-produção de audiovisual. Para trabalharmos com esse limite, teríamos que aceitar uma perda de qualidade ou teríamos que melhorar a base de dados. Para produções que recebem para garantir a melhor qualidade possível, eu não vejo essa concessão sendo feita num futuro breve. Mas talvez para as menores isso não seja um problema tão grande. Já para a mudança da base de dados: existe síntese gerada em 48kHz, mas ainda não é padrão do mercado, porque dobrar a taxa de amostragem significa dobrar a quantidade de dados e aumentar muito o processamento (que já é pesado).

*à medida que a gente vai envelhecendo, a gente costuma perder a capacidade de ouvir agudos. Eu com 38 e muitos abusos (e cuidados) já não ouço além de 17kHz. Meu pai de 65 não ouve além de 9kHz. Portanto, tenha em mente ao ouvir uma voz sintética e comparar com uma voz natural aquilo que você não está ouvindo (mas seu filho e sua audiência está). Confie em ouvidos bons e treinados!

9. ARTEFATOS/GLITCHES

Depois de uma escuta mais atenta das ferramentas disponíveis (indo um pouco além daquela primeira escutada em que a gente fala “uau, parece uma pessoa de verdade falando!”), ainda é possível ouvir “artefatos”: são ruídos ou incongruências no áudio que mostram que aquela voz é sintética. Às vezes, aparecem em um salto de melodia impossível para a voz humana ou ruídos extras que não fazem parte da voz (degradações acústicas e de vocoder). Não é possível removê-los na edição.

São muito particulares desse tipo de tecnologia e, por mais que apareçam menos que os outros sistemas, ainda assim aparecem de vez em quando.

Num futuro breve esses problemas podem desaparecer, mas a maior parte das ferramentas disponíveis os tem, ainda mais se você usar um material não ideal para treinar os seus modelos — cenário provável em uma produção de baixo padrão.

Nos dias de hoje, nesse contexto de voz artificial na comunicação e toda a reação negativa que isso tem gerado, na minha leitura esses artefatos são o carimbo da artificialidade, a marca do “falso” e tudo que isso pode implicar.

*aqui é importante dizer que estou comparando com a qualidade de gravação de locução em estúdio (mais uma vez: o padrão do audiovisual).

10. NOVO MERCADO

Quando falamos de mercado de trabalho ficamos com a noção de que ele é formado de grupos fixos de vagas, quando na verdade sabemos que ele é só um reflexo daquilo que queremos consumir/fazer. Ou seja, não quer dizer que determinada peça com voz sintética substituiu necessariamente um locutor: pode ser que aquela peça nem existiria se não fosse a tecnologia de hoje.

Portanto, não sabemos como será a produção audiovisual em um curto período de tempo e quais serão as suas demandas em termos de voz. Inclusive, se me permitem ser otimista: se o custo de certos processos da produção audiovisual vai diminuir, é bem provável que a quantidade de produções aumente. E aquilo que tiver valor nesse novo cenário dividirá o novo bolo do segmento, impreterivelmente.

Para dar um exemplo real: um cliente que há 5 anos jamais teria verba para fazer um pequeno vídeo do seu produto agora consegue contratar uma produtora alinhada com novos processos mais baratos. Ela faz o vídeo e coloca uma voz artificial. O cliente rejeita a voz e procura por si só um locutor real, mas aprova o vídeo. Ou seja, um novo cliente entrou para o mercado consumidor de locução diante do contexto de redução no custo de produção audiovisual. E uma nova estrutura de valor é construída baseada no que realmente importa, o que não é substituível.

Você quer ser um locutor ciborgue?

11. CIBORGUE: SÍNTESE x CONVERSÃO

E se deliberadamente treinássemos nossos próprios sistemas, com as nossas próprias vozes? Seremos ciborgues onipresentes, vendendo nossas vozes para uma apresentação de escola em Roraima, o metrô do Rio de Janeiro e um evento no interior do Mato Grosso?

É possível: hoje existem empresas que podem fazer isso (treinar um sistema com a sua voz para que você explore-a comercialmente). Tem várias maneiras que você pode configurar a máquina para vetar determinados usos ou conteúdos. Ou você mesmo pode ter que autorizar cada uso contratado.

Mas lembre-se de que tudo que está acima ainda é válido: será uma voz sem agudo, sem interpretações, corre o risco de você autorizar o uso em alguma peça que fala mal do seu cliente favorito, sua voz pode ficar taxada de “voz de robô” ou “a voz que a galera usa quando quer falar de política” etc. E, claro, você vai estar concorrendo com as centenas de vozes que já estão no mercado e que são gratuitas (sem contar a praticidade de escolher a voz sintética dentro da plataforma em si — que é o que acontece no TikTok, por exemplo, e deve expandir para outros softwares de produção de conteúdo). Será que o meu timbre vale mais do que os outros? Será que ao oferecer para o meu cliente uma solução mais barata (e pior) eu não acabo precarizando o meu trabalho?

Não acho que ninguém tenha a resposta para essas perguntas. É um risco — quem se arriscar agora colherá o ônus ou o bônus dessa decisão.

Mas existem ainda possibilidades de se trabalhar com voz generativa. Uma delas é ser contratado por uma empresa que quer comercializar vozes e que precisa criar um banco de dados próprio. Esse material será usado para criar a base do sistema — não necessariamente os produtos dessa empresa terão os timbres das pessoas que participaram do seu banco de dados. E isso para o locutor é muito importante, certo? Mas muito cuidado com os contratos para não ceder o uso da sua voz de maneira indeterminada.

E, por último mas não menos importante, além da síntese de voz (aquela criada a partir de um texto), existe também a conversão ou substituição de voz. Aqui o sistema é treinado da mesma maneira, porém a voz é criada a partir de outra voz. O sistema, portanto, não está fazendo as escolhas de interpretação: a voz base está. Ele vai usar o mesmo ritmo, entonação, intenção, emissão, volume etc, mas vai mudar o timbre, ou seja, vai transformar a voz de uma pessoa em outra pessoa.

O resultado da conversão é muito melhor do que a síntese, porque o profissional da voz consegue controlar a interpretação. Mas notem que, ainda que eu possa transformar minha voz na voz do James Earl Jones, os advogados dele não iam gostar muito. Ou iam gostar muito. Além desse uso (criminoso) avento alguns:

  1. Talvez esse uso seja útil na expansão das ferramentas disponíveis para criação de personagens. Na dublagem e voz original, historicamente os atores usam extremos de seus timbres e interpretações para distinguir entre os muitos personagens que têm que fazer. Esse tipo de interpretação ficou conhecida como “caricata”. Com a conversão poderíamos explorar outros tipos de controle nesses segmentos.
  2. Na dublagem especificamente, essa tecnologia corta para os dois lados: se o Tom Hanks permitir que sua voz em inglês seja substituída pela sua própria voz em português, qual a vantagem de se contratar um dublador? Ao mesmo tempo, o resultado seria diferente (melhor?) se eu contratasse um dublador para “localizar” a interpretação para o português brasileiro (e todas as suas particularidades) e, talvez mais por capricho do que utilidade, substituísse o timbre desse dublador pela voz do Tom Hanks.
  3. É possível treinar um modelo com a sua voz para que você consiga converter um trabalho que você fez em português para outro idioma. Ainda que cada idioma tenha sua própria inflexão e características, uma parte do que foi interpretado na versão original seria transposta para o idioma alvo.

12. OBJETIVO DA TECNOLOGIA

A comunidade acadêmica no desenvolvimento desse tipo de tecnologia não está interessada em substituir locutores. É claro que a mesma tecnologia pode ser usada por agentes nefastos, mas sua gênese, além de nobre, não está focada em abordar detalhes como os que descrevemos aqui. Portanto, os objetivos são diferentes: não estão preocupados em vender, chamar atenção, comunicar com um público específico… Enfim, comunicar como um locutor dentro de um contexto criativo/produtivo de comunicação consegue comunicar.

No geral, essa tecnologia é focada no auxílio de pessoas com deficiência e automatizar funções insalubres e discutíveis, tipo call center. Nesse contexto, inteligibilidade, processamento, naturalidade/expressividade são as chaves — e, como sabemos, esses pontos não são suficientes para o audiovisual.

13. CONCLUSÃO

O conceito de aprendizagem de máquina mexe com a gente. “Como assim? Você dá um monte de dados para a máquina e ela tira suas próprias conclusões?”. Irreparavelmente, se pararmos para pensar sem pesquisar, caímos na falácia da bola de neve (ou slippery slope) comum dessas discussões do tipo:

“Logo a máquina vai ser capaz de interpretar o texto (insira aqui o seu trabalho) tão bem quando um humano, porque a máquina não pára de aprender”

E isso acontece principalmente, porque não consideramos que:

a. há limite de processamento e banco de dados (de capital e recursos naturais)

b. há leis limitando o que pode ser feito

c. há humanos guiando o caminho

Falamos aqui de limites técnicos e contextuais (expectativas de mercado). Esses limites devem ir mudando — precisamos ficar atentos! Mas de maneira muito geral, a voz por síntese (TTS) hoje não é boa o suficiente para competir com os locutores, considerando os segmentos que já existem e a tecnologia atual.

Aqui o uso está relegado ao gratuito, à conteúdo rápido, à celebridade, ao influenciador e a aplicações de sistemas específicos. Não é pouca coisa e, provavelmente, no futuro mais distante (prometi não olhar pra ele, mas abro aqui uma exceção) esse espaço será maior — ao mesmo tempo, não vejo como locutores competiriam, a não ser fazendo parte da construção dessas ferramentas, treinando modelos e negociando o uso da sua voz nos termos novos da IA generativa (que ainda está sendo pensado, discutido e elaborado).

Existe ainda o potencial de exploração no modelo de conversão de voz, seja estendendo a capacidade de se trabalhar com personagens, pessoas que já faleceram e usos derivados; bem como no uso para outros idiomas e dublagem. O futuro breve dessas técnicas é incerto e promissor.

E o mercado é uma amálgama de opiniões. Não é verdade que não perderemos nosso trabalho para a máquina: já fiquei sabendo de um caso em que uma locutora humana foi preterida em um sistema de atendimento fechado (ainda não deu tempo do cliente colher a reação negativa — aguardemos!). Mas enquanto escrevo faço parte de um processo em que já tive que gravar uma frase com 3 palavras umas 50 vezes e o cliente achou que ainda não chegou lá (estamos marcando uma sessão para que eles possam dirigir a intenção). Não existe consenso, tampouco ruptura abrupta.

Resta para nós locutores ficarmos ligados nas discussões que estão rolando (e principalmente não assinar nada que não esteja super claro). E para o audiovisual: locutores são melhores que máquinas (e cuidado ao usar essa tecnologia deliberadamente e não se enroscar em um crime de violação de direitos).

Gabriel Duarte

Locutor e membro da presidência coletiva do Clube da Voz

compartilhe

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

veja também

A voz vem antes da fé

Eu estava prestes a pegar o voo até São Paulo. Enquanto meu pai procurava a cadeira de rodas e minha mãe buscava o carrinho para as bagagens, tive que ficar sozinho dentro do carro com as portas fechadas. Sozinho por

Vozes Memoráveis

É uma honra e um prazer escrever neste espaço sobre esse assunto tão rico e vasto: a voz. Tão rico e amplo que vou me basear aqui apenas nas minhas impressões e ideias que fui juntando puramente por experiência pessoal.

Como gravar mensagens de voz utilizando as técnicas dos locutores profissionais

Quando falamos no celular, normalmente encostamos o aparelho contra o rosto como se fosse um telefone convencional. Mas na hora de gravar uma mensagem de voz, no WhatsApp por exemplo, acabamos segurando o aparelho em outra posição, mais longe da