Blog

PORQUE LOS ANUNCIADORES SON MEJORES QUE LAS MÁQUINAS HOY (Y EN EL FUTURO PRONTO)

Cualquiera que mire al pasado comprende el valor de la innovación tecnológica para generar progreso. Comimos mucho arroz y frijoles para llegar hasta aquí. Y yo, por supuesto, no pienso diferente. Entonces, en aras de la claridad:

  1. Quiero escribir para organizar lo que estoy viendo.
  2. Quiero fomentar debates más prácticos y detallados (y quizás menos apocalípticos)
  3. Mi sesgo es el de orador, ex productor de audio, ex músico y curioso.
  4. La idea es acercar la discusión mirando lo que tenemos ahora y sugerir un futuro más cercano, pero evitando la complejidad de las discusiones sobre un futuro lejano.
  5. Este título es cebo de clics (No es importante saber si somos mejores que las máquinas, sino cuáles son las diferencias). Pero ya digo que creo que estamos mejor. No increíblemente mejor, pero sí lo suficientemente mejor como para no perder empleos a causa de los robots.

Dejando esto de lado, vayamos al grano:

  1. INTERPRETACIÓN x INTERPRETACIÓN

En la síntesis de voz (ese proceso en el que la máquina genera una voz a partir de un texto, o Text To Speech o TTS) todavía no es posible hacer que la voz imbuya de significado más allá del textual, a tener en cuenta: sarcasmo, amabilidad, seguridad, vacilación, coloquialidad, etc.

La red neuronal de voz funciona así: mira el material grabado de un hablante y establece conexiones (a partir de una base de datos del sistema lingüístico con otra base de datos). Se da cuenta de que el hablante termina las frases de cierta manera; que las preguntas tengan cierta melodía; que la pronunciación de “seisceintos” es muy paulista: son fenómenos que siempre (o casi siempre) ocurren en el material analizado. A partir de entonces, cuando le das un texto, ella utiliza la regla y “reensambla” la voz del hablante cruzando el contexto que aprendió con el contexto que recibió en el texto.

Es decir, todo lo que es diferente no entra en el modelo. todo lo que es posible no entra en el modelo. Ejemplo:

¿Bañarse en el mar? No. La ducha es lo que hay.

La voz sintética en este caso miraría los contextos similares del material entrenado y elegiría una entonación algo literal: No. (después de todo, la mayoría de los “no” son algo literales). Es imposible que la máquina piense en posibilidades como: ¿este personaje quiere mostrar lo absurdo de la sugerencia? ¿Es demasiado vaga para salir de casa? ¿Tiene la sonrisa pícara de quien ya sabe la respuesta? E incluso si ella tuviera la respuesta a esas preguntas, ¿qué es? ¿Un “no” repulsivo, perezoso o travieso?

Curiosamente, una palabra describe dos procesos distintos en el trabajo de un orador: interpretación. Primero, es necesario interpretar cuál es el mensaje (cuál es el contexto, qué mensaje quiero enviar, para quién es) para después interpretar el mensaje (ejecutar, llevar del mundo de las ideas al papel o al aire). Y estos dos procesos son completamente diferentes para la máquina.

Pero miremos un poco más allá y sugiramos mecanismos utilizando algo de lo que existe. ¿Qué pasa si uso un material especial para entrenar la máquina? Un banco de interpretaciones repulsivas, otro de vagas y otro de sinvergüenzas. Entonces el usuario podría elegir: este “no” es repulsivo. Jugar. Mmmmm no me gustó. voy a intentar perezoso. Jugar. ¡Mmm el siguiente!

¿Imagínese un sistema en el que el usuario tuviera que elegir de una lista de 200 (¿o eran 2000?) sentimientos/significados para cada palabra y/o frase? ¿Y los sentimientos combinan significados (repulsivos y perezosos)? No es práctico.

Así que vayamos más allá e imaginemos una máquina capaz de hacer esto: habría que mirar todos los contenidos audiovisuales producidos en los últimos años y cuál era la comprensión general del ser humano sobre cada una de estas entonaciones, ritmos, inflexiones, etc. capaz de tomar decisiones. Y este tipo de cosas cambian todo el tiempo. Estamos hablando de una cantidad de datos muy diferente a la que se utiliza para entrenar modelos de voz sintética.

Además, ¿imagina entrenar 2000 modelos con diferentes sentimientos/significados para una sola voz? No sorprende que el chat GPT solo dure hasta 2021. Esta tecnología tiene límites. Al menos hoy y en el futuro próximo.

Por lo tanto, aquí hay dos puntos importantes: en primer lugar, la forma en que está estructurada la tecnología hoy en día, No será capaz de reproducir sentimientos/significados extratextuales, incluso con todo el procesamiento del mundo. Y segundo: incluso si lo fuera, todavía necesitaríamos una entidad que pensara en qué opciones tomar para alcanzar un resultado objetivo (¿no es eso nada perezoso o asqueroso?). Una máquina no es capaz de eso. Un ser humano, sí, pero le resultaría mucho más práctico encender un micrófono y grabar que tener que manejar palancas.

2. SATURACIÓN/MEDIO

Si todos tienen la misma herramienta disponible, todo lo que se produce se ve muy similar. Y, por tanto, la percepción del resultado que produce esta herramienta cambia rápidamente y sin ningún control. Lo que era nuevo se vuelve viejo. Lo que era diferente sigue siendo lo mismo. Lo que podría ser credibilidad se vuelve falso. Muy rápido.

Basta escuchar la misma voz en un contenido de Instagram/TikTok 3 veces para que sientas repulsión por ella y por el canal que la usa: aunque suene “natural” en algunos contextos, por la exposición ya sé que algo anda mal. : ¿Me están engañando? ¿Es cierto este mensaje? ¿Por qué el dueño del canal no usó su propia voz?

3. EL MITO DEL AUMENTO DE PRODUCTIVIDAD

A diferencia de otras áreas de la producción audiovisual, las locuciones no requieren de mucho tiempo para producirse. Por tanto, si comparamos el proceso de generación de una voz mediante síntesis con el de grabación y edición de una locución, ninguno de los dos procesos sería increíblemente rápido –más aún si se tiene en cuenta la calidad del proceso creativo de la locución en el audiovisual. .

En el mejor de los casos (entré al sitio web, pegué mi guión en una caja, descargué una voz en off sintética) solo ahorraría unas horas en comparación con pedirle al locutor que grabara y esperar a que llegara el archivo. Y el trabajo es el mismo: “máquina, ponme locutor” versus “locutor, ponme locutor”.

¿Y para piezas largas? En unos minutos genero una voz en off para un audiolibro que a un orador le llevaría días grabar. Aun así, incluso sin tener en cuenta la diferencia de calidad entre uno y otro, es necesario revisar todo el trabajo de IA generativa. El sistema todavía tiene fallas, no todos los libros están escritos de la misma manera, las puntuaciones a veces son extrañas (hay una gran diferencia entre el lenguaje escrito y el oral y el hablante está haciendo este filtro todo el tiempo), hay neologismos y Sería necesario que un humano revisara el trabajo antes de publicarlo (como ocurre con todo el material generado por IA generativa). Y aquí estamos hablando de un trabajo de revisión diferente al que normalmente se hace sobre una grabación de un orador. Sería escuchar, buscar inconsistencias y buscar soluciones que tal vez no existen: es posible que cierto párrafo tenga una puntuación que la voz sintética no pueda interpretar correctamente ¿qué hago? ¿Cambio la puntuación? ¿Es posible el ajuste?

¿Y adivinen cuánto tiempo lleva revisar un libro de 10 horas? Al menos 10 horas (si todo está correcto). Una vez más: ¿cuál es la verdadera ganancia?

4. CONTROL — TIMBRE

Una parte esencial del trabajo de los locutores es controlar la exposición de su voz. Cuando ejecutamos una campaña con un gran alcance/impacto, nuestra voz permanece ligada a ese mensaje/marca durante mucho tiempo. Y esto tiene varias consecuencias (deliberadas o no). Tomar buenas decisiones es construir una percepción colectiva de lo que significa tu voz; después de todo, millones de personas han escuchado tu voz en tal o cual contexto (tu carrera se define así). Y la marca lo sabe: al contratar al locutor, presta todo lo que la voz aporta a su marca.

Si no hay control, ¿quién garantiza que su competidor no utilizará la voz de su marca? ¿O tal vez la voz que elegiste para el video que se reproducirá en tu evento de sustentabilidad no fue utilizada por un canal político extremo que dice que no hay calentamiento global y se volvió viral (en el mal sentido)? ¿O la voz de tu audiolibro es la que se ha usado mil veces en TikTok y ya nadie aguanta más?

5. DELITO 1: LAS LEYES QUE TENEMOS

No estamos desprotegidos. Si bien no está lista una legislación más específica, contamos con el Código de Autorregulación Publicitaria (del Conar), el Código de Protección al Consumidor, el Estatuto de la Niñez y la Adolescencia, la Ley de Derechos de Autor y la Ley General de Protección de Datos para guiarnos. ¡Mucho cuidado! Usar el trabajo o la voz de otra persona sin autorización ha sido durante mucho tiempo un delito.

Especialmente en nuestro caso me gustaría destacar:

  1. Derecho de la Personalidad: en la Constitución Federal y el Código Civil brasileño, los atributos de una persona física (incluida su voz) no pueden ser utilizados sin la debida autorización de su titular. Esto incluye tanto su uso para entrenar la voz generativa como si esa voz sintética imita la voz de alguien (independientemente del proceso).
  2. Secreto Empresarial: aquí cito el manual de la Asociación Brasileña de Anunciantes: “La protección del secreto empresarial puede perderse si el secreto se hace público. Por lo tanto, considerando la retroalimentación característica de las interacciones y los resultados generados a partir de la interacción con los usuarios, es extremadamente importante que información, prácticas y/o procedimientos que constituyan secretos comerciales no se inserten en las plataformas de IA generativa”. ¿Pondría el guión de la campaña que aún no se ha enviado a su cliente en una máquina en la que no sabemos cómo utilizar los datos que hay allí?

6. CRIMEN 2 – LO QUE VIENE

En los próximos años veremos regulaciones importantes:

  1. En Brasil tenemos 4 PL sobre el tema en curso: 5051/2019, 21/2020, 240/2020, 872/2021 y principalmente 2338/2023, de Rodrigo Pacheco.
  2. Obras Derivadas: se están llevando a cabo algunos procesos legales en el mundo que pueden concluir que el material que se está generando utilizando algún tipo de IA generativa que utiliza una gran base de datos en su red neuronal es en realidad una Obra Derivada precisamente de esa base de datos. Esto significa, entre otras cosas, que para utilizar este material se requeriría la autorización de los autores de las obras originales de esta base de datos, así como una correcta compensación.

7. ARTE

Una característica imborrable del arte es la conexión que tenemos con el artista: veo cómo este ser humano se expresa y eso me da sentido, porque estoy hecho de lo mismo, siento las mismas cosas. Entonces él me ayuda a comprenderme y expresarme.

La IA generativa ha quedado relegada a un pastiche, lo que no nos dice nada. Está vacío, porque necesitamos el ciclo completo para relacionarnos. OMS ¿creado? ¿En qué contexto?

¿Podemos decir lo mismo de la cultura de masas, sus tendencias y difamaciones? ¿Es todo una copia barata de todo lo que vino antes? Por mi opinión, no es lo mismo. Incluso si la comunicación de masas tiene un pastiche, todavía hay un millón de opciones humanas en el proceso: personas pensando en cómo otras personas entenderán ese mensaje (y eso nos hace más conectados).

Puede que este no sea el argumento más importante de este texto, teniendo en cuenta la conexión que la gente tiene entre una obra publicitaria/informativa versus una obra exhibida en un museo, pero aún así es necesario navegar la actual aversión a la IA, en general, y el valle inquietante, Por ejemplo.

8. LA VOZ DEL ROBOT NO TIENE AGUDOS: EL LÍMITE DE 10 kHz

El conjunto de bases de datos públicas. utilizados para el desarrollo de sistemas de voz artificial en los últimos 10 años tienen velocidades de muestreo de 22,05 kHz o 24 kHz. Por lo tanto, las voces generadas tienen un máximo de 10–11 kHz (Teorema de Nyquist). Una grabación típica (y nuestra audición) llega hasta los 20 kHz.

Esta pérdida de 9 a 10 kHz significa que no tenemos agudos en la voz sintética. Precisamente en los agudos se encuentra información importante sobre la calidad del audio: son elementos (armónicos, formantes) que caracterizan el timbre y la distinción entre voces.

Este no es el estándar actual para la postproducción audiovisual. Para trabajar con este límite tendríamos que aceptar una pérdida de calidad o tendríamos que mejorar la base de datos. Para las producciones que se pagan para garantizar la mejor calidad posible, no veo que se haga esa concesión en el corto plazo. Pero quizás para los más pequeños esto no sea un problema tan grande. En cuanto al cambio de base de datos: hay síntesis generada a 48kHz, pero aún no es un estándar del mercado, porque duplicar la frecuencia de muestreo significa duplicar la cantidad de datos y aumentar mucho el procesamiento (que ya es pesado).

*a medida que envejecemos, tendemos a perder la capacidad de escuchar frecuencias altas. A mis 38 años y con mucho abuso (y cuidados), ya no escucho más allá de los 17kHz. Mi padre, de 65 años, no escucha más allá de los 9 kHz. Así que tenga en cuenta cuando escuche una voz sintética y compare con una voz natural lo que usted no está escuchando (pero su hijo y su audiencia sí). ¡Confía en oídos buenos y entrenados!

9. ARTEFACTOS/FALLOS

Después de escuchar más atentamente las herramientas disponibles (yendo un poco más allá de esa primera escucha en la que decimos “¡guau, suena como una persona real hablando!”), todavía es posible escuchar “artefactos”: son ruidos o inconsistencias en el audio que demuestra que esa voz es sintética. En ocasiones aparecen en un salto melódico imposible para la voz humana o ruidos extra que no forman parte de la voz (degradaciones acústicas y vocoder). No puede eliminarlos al editar.

Son muy particulares de este tipo de tecnología y, aunque aparecen menos que otros sistemas, todavía aparecen de vez en cuando.

En un futuro próximo estos problemas pueden desaparecer, pero la mayoría de las herramientas disponibles los tienen, más aún si utiliza un material no ideal para entrenar sus modelos, un escenario probable en una producción de bajo estándar.

Hoy en día, en este contexto de voz artificial en la comunicación y toda la reacción negativa que esto ha generado, en mi lectura estos artefactos son el sello de la artificialidad, la marca de lo “falso” y todo lo que esto puede implicar.

*Aquí es importante decir que lo estoy comparando con la calidad de grabación de locuciones en un estudio (una vez más: el estándar audiovisual).

10. NUEVO MERCADO

Cuando hablamos del mercado laboral, tenemos la noción de que está formado por grupos fijos de vacantes, cuando en realidad sabemos que es sólo un reflejo de lo que queremos consumir/hacer. En otras palabras, no significa que una determinada pieza con voz sintética sustituya necesariamente a un locutor: puede ser que esa pieza ni siquiera existiera si no fuera por la tecnología actual.

Por tanto, no sabemos cómo será la producción audiovisual en un corto periodo de tiempo y cuáles serán sus exigencias en términos de voz. De hecho, si se me permite ser optimista: si el coste de determinados procesos de producción audiovisual disminuye, es muy probable que aumente el número de producciones. Y todo lo que tenga valor en este nuevo escenario compartirá el nuevo pastel del segmento, sin falta.

Por poner un ejemplo real: un cliente que hace 5 años nunca habría tenido los fondos para hacer un vídeo corto de su producto ahora puede contratar una productora alineada con nuevos procesos más económicos. Ella hace el vídeo y pone una voz artificial. El cliente rechaza la voz y busca un hablante real por su cuenta, pero aprueba el vídeo. Es decir, un nuevo cliente ingresó al mercado de consumo de locución en un contexto de reducción de costos de producción audiovisual. Y se construye una nueva estructura de valores a partir de lo que realmente importa, de lo que no es reemplazable.

¿Quieres ser un locutor cyborg?

11. CYBORG: SÍNTESIS x CONVERSIÓN

¿Qué pasaría si entrenáramos deliberadamente nuestros propios sistemas, con nuestras propias voces? ¿Seremos cyborgs omnipresentes, vendiendo nuestras voces para una actuación escolar en Roraima, el metro de Río de Janeiro y un evento en el interior de Mato Grosso?

Es posible: hoy existen empresas que pueden hacer esto (entrenar un sistema con tu voz para que puedas explotarlo comercialmente). Hay varias formas de configurar la máquina para vetar determinados usos o contenidos. O puede que tengas que autorizar tú mismo cada uso contratado.

Pero recuerda que todo lo anterior sigue vigente: será una voz sin agudos, sin interpretaciones, existe el riesgo de que autorices su uso en una pieza que hable mal de tu cliente favorito, tu voz podría ser etiquetada como “voz como una robot” o “la voz que usa la gente cuando quiere hablar de política”, etc. Y, por supuesto, estarás compitiendo con los cientos de voces que ya hay en el mercado y que son gratuitas (sin olvidar la practicidad de elegir la voz sintética dentro de la propia plataforma, que es lo que ocurre en TikTok, por ejemplo). y debería expandirse a otro software de producción de contenido). ¿Será mi timbre ¿Vale más que otros? ¿Será que ofreciendo a mi cliente una solución más barata (y peor) no acabo precarizando mi trabajo?

No creo que nadie tenga la respuesta a estas preguntas. Es un riesgo: quien corra el riesgo ahora se llevará la carga o la ventaja de esa decisión.

Pero todavía existen posibilidades de trabajar con voz generativa. Una de ellas es ser contratado por una empresa que quiere vender voces y que necesita crear su propia base de datos. Este material se utilizará para crear la base del sistema; los productos de esta empresa no necesariamente tendrán los sellos de las personas que participaron en su base de datos. Y esto es muy importante para el hablante, ¿verdad? Pero mucho cuidado con los contratos para no renunciar al uso de la voz de forma indeterminada.

Y, por último, pero no menos importante, además de la síntesis de voz (el creado a partir de un texto), también está el conversión o reemplazo de voz. Aquí el sistema se entrena del mismo modo, pero la voz se crea a partir de otra voz. Por lo tanto, el sistema no es quien toma las decisiones de interpretación: es la voz base. Utilizará el mismo ritmo, entonación, intención, emisión, volumen, etc., pero cambiará el timbre, es decir, transformará la voz de una persona en la de otra.

El resultado de conversión es mucho mejor que síntesis, porque el profesional de la voz puede controlar la interpretación. Pero tenga en cuenta que incluso si pudiera transformar mi voz en la voz de James Earl Jones, a sus abogados no les gustaría mucho. O les gustaría mucho. Además de este uso (delictivo), sugiero algunos:

  1. Quizás este uso sea útil para ampliar las herramientas disponibles para la creación de personajes. En el doblaje y la actuación de voz original, históricamente los actores utilizan extremos de sus timbres e interpretaciones para distinguir entre los muchos personajes que tienen que interpretar. Este tipo de interpretación se conoció como “caricata”. Con el conversión Podríamos explorar otros tipos de control en estos segmentos.
  2. En el doblaje concretamente, esta tecnología va en ambos sentidos: si Tom Hanks permite que su voz en inglés sea sustituida por su propia voz en portugués, ¿cuál es la ventaja de contratar a un actor de doblaje? Al mismo tiempo, el resultado sería diferente (¿mejor?) si contratara a un actor de doblaje para “localizar” la interpretación al portugués brasileño (y todas sus particularidades) y, quizás más por capricho que por utilidad, reemplazara el timbre de ese actor de doblaje. con la de voz de Tom Hanks.
  3. Puedes entrenar un modelo con tu voz para que puedas convertir un trabajo que hiciste en portugués a otro idioma. Aunque cada idioma tiene su propia inflexión y características, parte de lo interpretado en la versión original se transpondría al idioma de destino.

12. OBJETIVO DE LA TECNOLOGÍA

La comunidad académica en el desarrollo de este tipo de tecnología no está interesada en sustituir a los locutores. Por supuesto, la misma tecnología puede ser utilizada por agentes nefastos, pero su génesis, además de noble, no está enfocada a abordar detalles como los aquí descritos. Por tanto, los objetivos son diferentes: no se preocupan por vender, llamar la atención, comunicar con un público concreto… En definitiva, comunicar como locutor dentro de un contexto de comunicación creativa/productiva puede comunicar.

En general, esta tecnología está enfocada a ayudar a las personas con discapacidad y a automatizar funciones poco saludables y discutibles de tipo call center. En este contexto, la inteligibilidad, el procesamiento, la naturalidad/expresividad son las claves y, como sabemos, estos puntos no son suficientes para el audiovisual.

13. CONCLUSIÓN

el concepto de aprendizaje automático meterse con nosotros. "¿Como esto? ¿Le das un montón de datos a la máquina y ésta saca sus propias conclusiones? Irreparablemente, si nos paramos a pensar sin investigar, caemos en la falacia de la bola de nieve (o pendiente resbaladiza) común de estas discusiones como:

“Pronto la máquina podrá interpretar el texto (inserta tu trabajo aquí) así como un humano, porque la máquina nunca deja de aprender”

Y esto sucede principalmente porque no consideramos que:

a. Hay un límite en el procesamiento y la base de datos (de capital y recursos naturales)

b. Hay leyes que limitan lo que se puede hacer

o. Hay humanos guiando el camino

Hablamos aquí de límites técnicos y contextuales (expectativas del mercado). Estos límites deben cambiar: ¡debemos estar atentos! Pero en términos muy generales, la síntesis de voz (TTS) hoy en día no es lo suficientemente buena para competir con los locutores, considerando los segmentos que ya existen y la tecnología actual.

Aquí, el uso se relega a contenidos gratuitos, contenidos rápidos, celebridades, influencers y aplicaciones específicas del sistema. No es poca cosa y, probablemente, en un futuro más lejano (prometí no mirarlo, pero haré una excepción aquí) este espacio será más grande; al mismo tiempo, no veo cómo los locutores lo harían. competir, excepto siendo parte de la construcción de estas herramientas, entrenando modelos y negociando el uso de su voz en los nuevos términos de la IA generativa (que aún se está pensando, discutiendo y desarrollando).

Todavía hay potencial de exploración en el modelo de conversión de voz, ya sea ampliando la capacidad de trabajar con personajes, personas ya fallecidas y usos derivados; así como en uso para otros idiomas y doblajes. El futuro cercano de estas técnicas es incierto y prometedor.

Y el mercado es una amalgama de opiniones. No es cierto que no perderemos nuestros trabajos a causa de las máquinas: ya he oído hablar de un caso en el que un hablante humano fue pasado por alto en un sistema de atención al cliente cerrado (el cliente aún no ha tenido tiempo de recibir la reacción negativa; esperemos). y veras!). Pero mientras escribo soy parte de un proceso en el que he tenido que grabar una frase con 3 palabras unas 50 veces y el cliente pensó que Aún no estoy allí (estamos agendando una sesión para que puedan orientar la intención). No hay consenso ni ruptura abrupta.

Depende de nosotros, los locutores, mantenernos conectados con las discusiones que se están llevando a cabo (y especialmente no firmar nada que no esté súper claro). Y para audiovisual: Los locutores son mejores que las máquinas (y tenga cuidado al usar esta tecnología deliberadamente y no involucrarse en un delito de violación de derechos).

gabriel duarte

Portavoz y miembro de la presidencia colectiva de club de voz

Compartir

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

vea también

Voces memorables

Es un honor y un placer escribir en este espacio sobre este rico y vasto tema: la voz. Tan rico y amplio que aquí sólo me basaré en mis impresiones e ideas que he recogido puramente por experiencia personal.

Cómo grabar mensajes de voz utilizando técnicas profesionales de locución

Cuando hablamos por el móvil, normalmente acercamos el dispositivo a la cara como si de un teléfono convencional se tratara. Pero al grabar un mensaje de voz, en WhatsApp por ejemplo, acabamos sosteniendo el dispositivo en otra posición, más lejos del

La nueva era de la voz

La voz siempre ha tenido un lugar destacado en mi vida. Para mí es el medio de comunicación más cercano y personal. Recuerdo con cariño escuchar LP de cuentos infantiles cuando era niño, programas de radio nocturnos