Cuando Alexa, Siri, Cortana y demás asistentes virtuales llegaron a nuestras vidas pensamos que el futuro ya estaba aquí. Por fin podíamos comunicarnos con las máquinas de una forma más natural y fluida, pero en realidad no dejaban de ser voces claramente artificiales, muy monocordes, con las que no se podía mantener una larga conversación. Desde entonces las voces sintéticas han seguido evolucionando y hoy ya pueden clonar la voz de cualquier ser humano sin que seamos capaces de distinguirla del original. Según McKinsey & Company, este mercado alcanzará más de 1.000 millones de dólares en los próximos cinco años.
Efectivamente, el CGI, o animación generada por ordenador, ya tiene su contrapartida en el audio. Podríamos hablar también de 'Photoshop para la voz'. El caso es que la tecnología ya es capaz de expresar un abanico de rasgos, inflexiones, tonos y emociones más sutiles con la voz, incorporando sonidos que no son palabras como la respiración o la risa entre dientes, hasta el punto de poder ser empleada en una película o un videojuego sin que el oyente se percate de su origen artificial.
Hace un par de años en la serie 'The Mandalorian' se utilizaron imágenes del rostro de Mark Hamill para que el personaje de Luke Skywalker reapareciera en su versión joven. Muchos se dieron cuenta de que se había usado el ordenador para poder recrearlo, pero pocos se percataron de que la voz tampoco era real. Con el permiso del actor la compañía de clonación de voces ucraniana Respeecher creó el diálogo del joven Luke usando fragmentos de su voz de hace 40 años.
Las posibilidades de un software así pueden revolucionar la industria del entretenimiento. La utilización de una inteligencia artificial capaz de crear voces humanas a partir de muestras de voz de un actor que puedan expresarse en cualquier idioma, llorar, gritar o reír, realmente multiplicará las opciones creativas en el mundo de las series y las películas, además de ser más rápido y económico.
Por ejemplo, la tecnología de voz generativa de IA ya se ha utilizado para recrear la voz de Andy Warhol en la serie documental 'The Andy Warhol Diaries'. La voz del artista se ajustó en cuanto a emoción y tono y se recreó para recitar palabras de sus diarios, todo ello con el permiso de la Fundación Andy Warhol..
Esa es solo una muestra del potencial de esta tecnología, pero no acaba ahí. Se podría aplicar en el mundo de la música, volviendo a traer la voz de artistas fallecidos (con todas las implicaciones morales que eso conlleva), o en la sanidad, ofreciendo a personas que han perdido el habla la posibilidad de expresarse con su antigua voz gracias a la clonación, como es el caso del actor Val Kilmer.
En la industria del entretenimiento, los podcasts y los audiolibros son los sectores donde más impactará esta tecnología en los próximos años. Según datos de Statista que recoge El País, los podcast superan una audiencia global de 621 millones de oyentes al año. En 2021 movieron más de 14.000 millones de dólares y se espera un crecimiento exponencial en los años venideros.
Los audiolibros, por su parte, se han convertido en la tabla de salvación del mercado editorial. Según la Asociación de Editores Estadounidenses, los ingresos totales de las editoriales de libros de EEUU disminuyeron ligeramente entre 2015 y 2020, al igual que los de los libros electrónicos. En cambio, los audiolibros aumentaron un 157% y todos los indicadores sugieren que seguirán haciéndolo.
De hecho, cuando la tecnología permita convertir en audio cualquier libro y no solo los superventas las cifras se dispararán exponencialmente. En la actualidad locutar un libro es un proceso largo y costoso que necesita de la participación de actores, y no todas las editoriales pueden permitírselo. Pero el panorama cambia con la voz sintética clónica de la humana. Y la tradición oral es, no lo olvidemos, el canal más antiguo y eficiente para contarnos historias los unos a los otros.