Voz humana y voz sintética, percepción y respuesta emocional ¿Qué nos diferencia de la inteligencia artificial?

Desde que desarrollamos nuestro lenguaje, la voz y las palabras han moldeado nuestra visión del mundo, dando forma a nuestros sentimientos, pensamientos, emociones y recuerdos.

La tecnología es un factor clave en el desarrollo económico y social, siempre que se use de la forma adecuada y con un beneficio común.

Pero el desarrollo tecnológico y la dependencia hacia los dispositivos nos desconecta de nosotros mismos y nos distancia de las relaciones presenciales.

Necesitamos recuperar nuestra forma más antigua de comunicación,  mantener las relaciones humanas y nuestros vínculos orales.

Nos gusta escuchar y preferimos sonidos en armonía con nuestra propia naturaleza

Pero ¿Puede una voz sintética igualar a una voz humana?

El auge del audio en la era digital

En esta sociedad en constante cambio, con un ritmo de vida acelerado, y donde el contenido digital está  gobernado por algoritmos e inteligencia artificial, el formato audio resurge con fuerza.

Recibimos más información y estímulos audiovisuales de los que podemos asimilar.

Y esta sobrecarga de información a la que nos sometemos a diario, nos ha llevado a  recuperar el interés por escuchar, buscando una comunicación mucho más natural y orgánica

El contenido en audio es accesible y cómodo, pero sobre todo tiene un indiscutible potencial comunicativo. Gracias a la cercanía y conexión emocional que mantiene con los oyentes, su popularidad crece como la espuma.

Podemos encontrar audio en diferentes formatos: ficción sonora, podcasts, audiolibros, audioguías, o diferentes experiencias sensoriales como la Realidad Virtual.

Accedemos a estos contenidos cos con diferentes objetivos: formación, divulgación o entretenimiento, a través de una voz humana que nos informa, nos cuenta una historia o con la que incluso podemos conversar.

La voz y las palabras recobran su importancia en nuestro día a día, ya que hacen posible seguir conectados sin perder los matices únicos que nos diferencian de una máquina,

¿Qué es una voz sintética?

La voz sintética es una voz creada y producida de forma artificial que imita el habla humana, lo que se conoce como  texto a voz (TTS) .

Al unir distintos fragmentos del habla grabados y almacenados en una base de datos, el habla sintetizada permite incluso crear conversaciones.

La voz artificial se implementa en un soporte software o hardware, para ser reproducida a través de los altavoces de diferentes tipos de dispositivos como: ordenadores, teléfonos móviles, asistentes, altavoces inteligentes o máquinas de servicios.  

Dispositivos de inteligencia artificial y conversación

Cuando hablamos de inteligencia artificial lo primero que suele venir a la mente son robots o androides de ciencia ficción. 

Pero en realidad, ya interaccionamos con dispositivos inteligentes a diario como nuestros teléfonos o los asistentes de voz, y están cambiando el modo en el que nos relacionamos con la tecnología.

La inteligencia artificial es software, y su lenguaje está formado por algoritmos que aprenden rápido de esa interacción humana día a día. 

Las tecnologías de voz facilitan algunas tareas. Por ejemplo, a mano podemos escribir una media de 32 palabras por minuto, 71 palabras en un teclado, y emitir alrededor de 200 palabras por minuto cuando hablamos.

Hablar es más cómodo, más natural y 3 veces más rápido que escribir.

La tecnología evoluciona para reconocer emociones e imitar a los humanos. Pero nuestras relaciones son mucho más complicadas y elaboradas que cualquier conjunto de códigos. 

«El hombre tiene un tesoro inestimable: su voz. La alquimia entre cuerpo y pensamiento, instrumento de persuasión y encanto, es el reflejo de nuestra personalidad. Ella puede hacer nuestra fortuna o causar nuestra pérdida. Y por ello. fascina a científicos, filósofos y médicos» ⠀

Jean Abitbol, fragmento del libro: «El poder de la voz»

La imitación de la voz humana, emociones y relaciones

Las tecnologías de la voz son sofisticadas y pueden imitar la voz humana de forma sorprendente.

El sistema Parallel Tacotron de Google es capaz de crear voces tan realistas que apenas se distinguen de una voz real

Este sistema puede copiar la prosodia humana y algunos de sus matices como la entonación, el tono, la acentuación y el ritmo

Tacotron puede identificar signos de puntuación, errores gramaticales o de pronunciación, elaborar frases complejas e incluso decir trabalenguas. 

Respuesta humana a las voces sintéticas y reales

El  Media Psychology Lab  de la Universitat Pompeu Fabra (UPF) llevó a cabo un estudio neurocientífico, dirigido por Emma Rodero

El objetivo de este estudio pionero era medir la respuesta de la conducta humana para descubrir cómo influye el hecho de que una voz sea humana o sintética, y su impacto en el procesamiento cognitivo de los lectores.

En el estudio se contó con una muestra de 60 personas, que escucharon distintas historias contadas con diferentes voces, tipos de narración y efectos sonoros. 

Se registró y se midió la reacción sociológica y fisiológica de los participantes, es decir, la respuesta del sistema nervioso en el ritmo cardíaco durante la escucha de un relato.

Los investigadores analizaron el nivel de atención, y de activación emocional para reconocer lo que habían  «sentido, pensado y recordado» de la historia.

Tras las distintas pruebas de escucha se determinó que:

  • Los oyentes prestan más atención a las voces graves y humanas e interpretadas.
  • Las  voces humanas produjeron un impacto emocional en el sistema nervioso mucho más fuerte.
  • La voces humanas eran más memorables y potenciaban el recuerdo.
  • Las voces sintéticas generaban rechazo.

¿Qué diferencia hay entre una voz sintética y una voz humana?

Que una voz artificial puede imitar a una voz humana es indiscutible, como ya hemos podido comprobar.

Pero ¿Qué tiene de especial el lenguaje humano? 

La voz no es solo sonido ni las palabras una unión de fonemas.

Cuando hablamos utilizamos nuestro cuerpo, nuestra postura, nuestra respiración, y nuestro estado físico, mental y emocional,

Todo ello forma el sonido que emitimos y le da expresividad. Cada acto de comunicación humano es único.

La voz es un instrumento orgánico

La voz humana nos acompaña desde tiempos remotos, y es nuestra forma de expresión más orgánica.

Por eso, cuando hay ruido, si captamos el sonido de una voz, dirigimos naturalmente nuestra atención hacia ella.

La voz acerca y crea intimidad

Cuando escuchamos una voz natural se produce el efecto de intimidad emocional porque ese sonido tiene un efecto fisiológico real y deja una huella en quien la escucha. 

La voz humana genera una sensación de cercanía. Cuando hablamos, sentimos la calidez de esa voz, su humanidad, nos sentimos próximos a esa persona.

Pero las voces sintéticas, como lo son Siri o Alexa, «aún no están preparadas para contar historias, solamente para dar mensajes breves», ya que no tienen la capacidad de suscitar el mismo interés ni despertar esa sensación de proximidad.

La prosodia es inimitable porque es espontánea

Los matices emocionales como las diferentes melodías, cadencias, o  pausas que usamos al hablar, se aprecian como una herramienta de comprensión entre personas.

Cuando hablamos lo hacemos de forma premeditada, es decir, nos expresamos con una intención, ya sea para transmitir un menaje o responder a otra persona, pero no no creamos un sonido o una frase en base a algo previamente programado.

La voz humana potencia el recuerdo

La voz humana permite recrear imágenes mentales con mucha más claridad e intensidad que una voz artificial.

La voz humana no obedece a programas ni algortimos

Cuando hablamos El lenguaje humano puede ser ambiguo, entenderse de distintos modos o tener distintas interpretaciones, por ejemplo cuando usamos la ironía.

Conclusión

Es evidente que la tecnología evoluciona a una velocidad de vértigo, que algunos avances aún son desconocidos para la mayoría y que las máquinas podrán imitar las emociones y expresiones, humanas de forma cada vez más realista, pero la experiencia de la voz nunca podrá igualarse a la que ofrece una persona.

Hablar con una máquina puede ser divertido y a veces, necesario pero ¿Queremos que se convierta en algo habitual?

Parece complicado separar nuestros hábitos, trabajo y costumbres de la tecnología. Es por eso que potenciar nuestra forma de comunicar y escuchar es fundamental para la convivencia saludable entre personas y máquinas, mantener nuestro poder sobre ellas y reconectar con nuestra naturaleza humana, hacia una forma de vivir más consciente.

Deja un comentario