Autor: Marta Pachón Díaz .- El anuncio de Cruzcampo que clonó la imagen de Lola Flores llamó la atención hace unas semanas sobre la aplicación de la inteligencia artificial (IA). Unos meses antes, en verano, lo hizo el podcast XRey, que junto a la compañía vasca Vicomtech, clonó la voz del dictador Francisco Franco. Pero esta tecnología puede tener aún más aplicaciones.

Aflorithmic Labs la utiliza para personalizar los productos de otras empresas en distintos ámbitos relacionados con la producción de audio. ¿Te imaginas que el entrenador virtual de la app de tu gimnasio se dirigiese a ti por tu nombre?

Queremos hacer que la creación de audio sea tan fácil como escribir un blog“, explica en una entrevista con Business Insider España el CCO y fundador de la empresa, Björn Ühss, que añade que actualmente es más complicado. “Si quieres crear un anuncio, por ejemplo, o un podcast o un audiolibro, no solo es la persona que habla al micrófono. El proceso es muy largo“.

“Tienes que empezar con algo escrito. Después, lo pasas a un actor al que tienes que contratar. También ir a un estudio y contratar a un ingeniero de audio que te trabaja todo eso, y acabas con un audio”.

La solución de Aflorithmic consiste en clonar la voz, ya sea de un actor o de otra ya existente, seguido de un proceso de mastering automatizado en la nube, lo que permite tener tantos audios como el cliente quiere. No obstante, ambos cargos de la compañía explican que ellos no quieren acabar con los trabajos de los actores, sino hacerlos más automáticos para que tengan aplicación en más campos.

El primer paso es que alguien grabe determinadas frases que van a permitir que la tecnología la clone. Una vez se ha hecho esto, basta con introducir un texto. De momento, los idiomas con los que están trabajando son el alemán, el inglés y el español.

La compañía nació en febrero de 2019 con el objetivo de democratizar este proceso, aunque ya habían hecho experimentos el año anterior. Para Lehman y Ühss, el factor diferenciador de su compañía es que ellos abarcan todo el proceso de la producción de audio, frente a otras compañías que solo se encargan de hacer la clonación de voz.

Lehman puntualiza que la tecnología aún es limitada y que en audios de larga duración, se aprecia que la voz es artificial. “Si escuchas todo un libro con una voz sintética llega un punto en el que te cansas y no quieres seguir”, explica. “Lo que nosotros hacemos ahora es crear el audio específicamente para el uso de la voz“.

El CMO explica que si el actor graba la voz de una determinada forma, será así como suene en la grabación. Por ejemplo, si está contento, la voz sonará de esa forma y no se podrá adaptar su uso a otra situación.

No obstante, Lehman considera que el audio as a service es un negocio que va a “explotar” muy pronto.

Hay estudios que afirman que en aproximadamente un 80% de los casos se puede decir si la voz es artificial o real, pero eso significa que en el otro 20% no, y en los próximos 2 ó 3 años ya no sé podrá escuchar ninguna diferencia”, expone. “La calidad de las voces va a subir muchísimo (…). Entonces, sí se podrán hacer podcasts enteros”.

El CMO de la compañía también cree que existirán varios modelos que permitirán que esta se adapte a su uso, en vez de tener que grabar de distintas formas los audios para que encajen. Otras compañías más grandes están trabajando en este sentido, pero el CMO asegura que su tamaño les impide ser más ágiles que otras más pequeñas, como Aflorithmic Labs.

Esa capacidad de adaptación y de similitud con la realidad echa para atrás en muchas ocasiones al público general. Tanto Ühss como Lehman inciden en que no se puede determinar con exactitud hasta qué punto se considera natural una voz que viene de un actor si no se le ve hablar. De hecho, el CCO destaca que los niños apenas ven en televisión voz que sea “natural”, ya que el espectador no ve cómo los actores hablan en los dibujos animados.

Hablamos de artificial, y lo artificial tiene pinta como de frío, de no personal, cuando en realidad es lo contrario“, comenta Lehman. “Cuando hablamos por zoom es una cámara que convierte nuestra imagen en unos y ceros y luego lo vuelve a convertir en nuestros ordenadores. Pero si el color de tu piel o tu pelo es así no lo sabemos, porque es artificial. ¿En qué punto dejamos de ser humanos y cuándo empezamos a serlo?“.

IA aplicada a educación, deporte y marketing de influencers

Aflorithmic Labs trabaja, principalmente, en 3 ámbitos: apps de deporte, personalización de cuentos para niños y marketing de influencers.

La personalización de los audios permite ofrecer una mejor experiencia de usuario y dar un valor añadido. En el caso del deporte, el audio personalizado puede hacer que la persona que esté practicando deporte sea capaz de sacar sus últimas fuerzas para acabar un entrenamiento, cuentan los entrevistados. “Es como tener un entrenador personal“, explica Ühss. “Queremos cerrar ese gap: aquí tienes a tu coach personal que te motica, conoce tu nombre y es personalizado“.

Las historias personalizas para niños les han ayudado durante la cuarentena, explican en Aflorithmic Labs, que sacaron el proyecto durante el primer confinamiento en alemán. “Creamos una historia personalizada para que los niños en casa no se deprimiesen, que jugasen en las distintas habitaciones“, cuenta Ühss. “Cada habitación era un mundo y el niño jugaba con el grifo de agua y todos los elementos de la casa“.

Por su parte, los influencers “sintéticos”, como los llaman Ühss y Lehman, explican a los clientes las características del producto. No es la primera vez que se usa la inteligencia artificial en este sector: Miquela es una conocida instagramer que factura 10 millones de euros por ingresos publicitarios.

Asmismo, Aflorithmic Labs ha recibido una subvención por parte del Gobierno británico para usar la inteligencia artificial en un proyecto para evitar que la gente mayor se sienta sola. “Hay un montón de gente que está sola, que no habla con nadie y que a veces no se toman sus medicamentos. Así, alguien te puede hablar y recordártelo“, explica Ühss, que añade que se utiliza la voz de familiares de esa persona.

La compañía cuenta con 2 sedes, una en Barcelona y otra en Londres, aunque tanto el fundador como el CMO insisten en que hay gente trabajando desde diferentes localizaciones repartidas por el mundo. Entre las 2 sedes se reparten los 20 empleados con los que cuenta la compañía.

La tecnología es muy poderosa (…) y tenemos un equipo muy fuerte, de Cambridge y de otras universidades“, cuenta Ühss, que añade que utilizarán el dinero para investigación y contratar más gente, así como para mejorar la plataforma. Aflorithmic Labs aún no es una compañía rentable, pero prevé serlo a finales de año.

Ühss y Lehman creen que el uso de este tipo de tecnologías en ámbitos más mainstream, como el anuncio de Cruzcampo, hará que aumente el interés de los inversores por las startups de este sector.

Estricta ética en la clonación de audio

El uso de IA para clonar una voz es polémico debido a los problemas éticos y legales que despierta. Para Aflorithmic Labs, esta característica personal es similar a la imagen, por lo que es necesario pagar unos derechos y tener el permiso del actor para utilizarla.

Es exactamente lo mismo que los derechos de imagen“, incide Lehman. “Hasta ahora no ha sido posible esto, la voz no ha sido algo que un famoso o influencer pudiese vender. Ahora sí“. El CMO de la compañía especifica que es necesario detallar en los contratos los usos de esa voz y las condiciones y que los derechos de esta siempre son del actor o actriz.

“Nosotros lo vemos como un dato sensible, tan personal como tu contraseña, tu nombre o tu dirección”, defiende Ühss. “Es su derecho, es su voz”.

La Unión Europea (UE) ya cuenta con unas directrices para que la IA se utilice de una forma fiable, que debe apoyarse en 3 componentes: una inteligencia artificial lícita que cumpla todas las leyes y reglamentos aplicables; ética, para que garantice el respeto a ciertos principios y valores, y robusta, tanto desde el punto de vista ético como social.

Asimismo, desde Aflorithmic Labs aseguran que saben cuál es el contenido de los audios que se producen con su tecnología, por lo que no sería difícil encontrar violaciones de contrato o usos indebidos de esta.

Nosotros sabemos el contenido, cualquiera que estén creando. Tenemos un mecanismo que nos informa de esto“, explica, y cuenta que de momento solo trabajan con empresas por esta razón.