Deepfake de voz: ¿es posible detectar una voz artificial?

por Elvira Carrero | Autenticación Biométrica, Tecnología

La proliferación de la inteligencia artificial y la facilidad de acceder a herramientas capaces de alterar la verdad ha dado lugar a una de las técnicas más impactantes y preocupantes de manipulación digital: los deepfakes. Los deepfakes son una técnica de inteligencia artificial que permite la creación de vídeos, imágenes y voces falsas en los que aparecen personas diciendo o haciendo cosas que nunca dijeron o hicieron. Aunque hasta hace poco, su versión más extendida era el video, los deepfakes de audio están ganando relevancia día a día.

El primer gran hito que llevó la posibilidad de generar deepfake de voz al gran público fue la creación del programa Adobe Voco en 2016. Este programa utilizaba inteligencia artificial (IA) para imitar la voz de una persona a partir de una grabación corta de su voz. Sin embargo, el proyecto fue cancelado después de que se demostrara que podía ser utilizado para crear falsificaciones de voz engañosas y peligrosas.

Desde entonces, los avances en la tecnología de redes neuronales han permitido la creación de deepfake de voz cada vez más realistas y convincentes. En la actualidad, hay varias aplicaciones y herramientas en línea que utilizan esta tecnología para crear falsificaciones de voz.

Sin ir más lejos, Microsoft presentó un modelo IA llamado VALL-E. Este modelo es capaz de replicar la voz humana con tan solo una grabación de tres segundos.

Esta realidad nos ha llevado a analizar qué es un deepfake de voz, cuál es su impacto y como de importante es contar con modelos de detección capaces de identificar si un clip de audio ha sido sintetizado o no.

¿Qué es un deepfake de voz?

Un deepfake de voz es una técnica de inteligencia artificial cuyo objetivo es la creación de un modelo de voz capaz de replicar la voz de una persona real (hablante).

Este modelo se entrena con grabaciones de voz del hablante. Una vez que se ha entrenado, se puede usar para generar una voz sintética que suene como la de la persona original.

Para crear la voz sintética, se necesita entrenar el modelo con grabaciones de voz de la persona que se pretende imitar. A partir de estas grabaciones, se utilizan técnicas de aprendizaje profundo y procesamiento del lenguaje natural para analizar los patrones y características únicas de la voz. Algunas de estas características son el tono, la velocidad, la cadencia y el acento. La inteligencia artificial usa las grabaciones para renderizar la voz de sonido auténtico, generando una nueva grabación de audio que imita la voz del hablante.

Un ejemplo de esta simulación artificial de voz es el deepfake de voz de Eminem que David Guetta reprodujo en uno de sus conciertos. El DJ combinó dos herramientas generativas de inteligencia artificial para crear un verso al estilo de Eminem y, posteriormente, recrear su voz.

Pero ¿cómo se crea un deepfake de voz?

La creación de un deepfake de voz se logra mediante el uso de tecnología de texto a voz (TTS) impulsada por IA. Durante mucho tiempo, se han utilizado dos enfoques: el TTS concatenativo, que utiliza grabaciones de audio para crear bibliotecas de palabras y sonidos que si se combinan forman oraciones, y el TTS paramétrico, que emplea modelos estadísticos de habla para la creación de voces.

Dejando a un lado los tecnicismos, podemos indicar que actualmente, con pocos minutos de voz grabada, se pueden crear conjuntos de datos de audio y usarlos para entrenar un modelo de voz de IA que pueda leer cualquier texto en la voz de destino.

Wavenet y Tacatron son algunas de las herramientas que permiten generar clones de voz.

Elementos para crear un deepfake de voz

Herramientas como Wavenet y Tecatron emplean tres elementos principalmente:

La voz original recogida mediante grabación de voz. La grabación debe tener la suficiente calidad como para recoger muestras de las características únicas de la voz del hablante.
La red neuronal que analiza los patrones y las características de la voz original y aprende a imitarlas. Esta red se entrena utilizando algoritmos de aprendizaje profundo y una gran cantidad de datos de audio de voces masculinas y femeninas, pudiendo condicionar la red a la identidad del hablante.
El modelo generativo que es el encargado de generar la nueva grabación de audio.

Proceso de creación de un deepfake de voz

El proceso para la generación de este tipo de deepfake es el siguiente:

Se toma la grabación de audio del hablante y se divide en pequeñas muestras de audio.
Se alimentan estas muestras de audio a la red neuronal, que las analiza y aprende a imitar las características de la voz original.
Una vez que la red neuronal ha aprendido los patrones de la voz original, el modelo generativo toma una pequeña muestra de audio de la voz original y crea la nueva grabación.
El resultado es una grabación de voz falsa que imita a la voz de la persona original.

Además de generar el habla, estas herramientas son capaces de generar otros sonidos como la respiración y los movimientos de la boca.

Challenge AVSspoof: principal base de datos contra la falsificación de voz

Al igual que existen herramientas y programas para generar voces falsas, también existen otras iniciativas que pretenden luchar contra esta práctica tan extendida.

Challenge AVSspoof es una de ellas. Su objetivo principal es lanzar retos para que empresas especializadas en la materia analicen problemas del procesamiento del lenguaje relacionados con la suplantación de identidad y diseñen medidas para luchar contra ello.

Desafío AVSspoof 2021

El AVSspoof 2021 fue el último desafío que se diseñó. Este challenge pretendía fomentar el progreso en la verificación automática fiable de locutores y la detección de deepfakes en escenarios más realistas y prácticos.

Para ello, se debían simular canales de telefonía en los que los datos de voz se sometían a codificación, comprensión y transmisión. Al mismo tiempo, se debía analizar la propagación acústica en espacios físicos creando frases con la voz de una persona objetivo.

El reto consistía en la realización de tres tareas donde cada equipo debía detectar un tipo concreto de ataque de voz: acceso lógico (LA), acceso físico (PA) y deepfake (DF).

Acceso lógico (LA): tenía como objetivo estudiar la robustez de las soluciones frente a variaciones de comprensión, pérdida de paquetes y otros artefactos derivados de anchos de banda, infraestructuras de transmisión y velocidades binarias.
Acceso físico (PA): hacía referencia a la detección de ataques de repetición en distintos entornos.
Discurso deepfake (DF): versaba sobre la detección de conversión a voz (VC) y de síntesis de texto a voz (TTS) por medio de un audio comprimido. Esta tarea pretendía evaluar la robustez de las soluciones de detección de spoofing cuando se utilizan para detectar datos de voz manipulados.

Conclusiones y resultados del desafío

Las conclusiones del reto indicaban que la robustez de la detección de audio falsificado mejora sustancialmente cuando se emplean técnicas de deepfake.

Además de lo anterior, el estudio confirmó que los intervalos no verbales pueden influir en la detección de una voz falsa, sobre todo en la tarea de acceso lógico y deepfake.

Mobbeel utilizó los datos del challenge para realizar pruebas técnicas. Los resultados son competitivos con respecto a los de los participantes del challenge y apuntan que nos encontramos en el estado del arte, al tener en Deepfake un EER de 22 en el evalution set.

Cómo detectar deepfakes de voz con biometría

Como apunta el challenge AVSspoofing, la detección de deepfakes de voz es un desafío en constante evolución. Sin embargo, existen herramientas útiles capaces de detectar este fenómeno como la biometría de voz.

La biometría de voz es un método de autenticación que utiliza el patrón único de voz de una persona para verificar su identidad. Este patrón incluye características como el tono de voz, la entonación, la velocidad del habla y la pronunciación.

Para utilizar la biometría de voz, se captura la voz de una persona, ya sea con reconocimiento de voz dependiente o independiente del texto, y se analizan sus características únicas junto con la duración de las palabras. Estas características se comparan con un perfil de voz previamente registrado en una base de datos para determinar la identidad de la persona.

Métodos de detección

Para detectar deepfakes de audio con biometría, se pueden utilizar varios métodos:

Análisis espectral, que consiste en el análisis de la señal de audio para detectar patrones de voz.
Algoritmos de deep learning, capaces de analizar la voz de un individuo y detectar características únicas difícilmente replicables en deepfakes.
Detección de artefactos, que son rastros digitales que se pueden encontrar en deepfakes de voz al no conseguir simular de forma precisa todas las variables presentes en una grabación de voz real. De esta forma, un deepfake puede contener interrupciones en la voz o ruidos de fondo diferente al esperado en un audio auténtico.

Además de los métodos anteriores, este tipo de biometría permite comparar unas voces con otras y usar esas voces como set de datos para entregar algún algoritmo.

El tipo de biometría que hemos mencionado hasta ahora se correspondería con pruebas de vidas pasivas, ya que no requieren ninguna acción adicional o cambio de comportamiento por parte del usuario más allá de usar su voz normalmente. Adicionalmente, y complementando a las pruebas de vida pasiva, se podría realizar una prueba de vida activa que requiere que la persona realice una acción para que el sistema lo identifique, como, por ejemplo, pronunciar una frase que se genera de manera aleatoria de una lista de palabras predefinidas.

¿Cómo I+D+i Mobbeel detecta Deepfakes de voz?

Nuestro departamento de I+D+i utiliza una arquitectura que combina varios modelos de machine learning. Estos modelos incluyen redes convolucionales y de aprendizaje profundo (deep learning) y han sido entrenado para detectar ataques de diversos tipos, incluyendo los deepfakes.

Al combinar varios modelos, la decisión de sí una voz se corresponde con una falsificación no recae en un solo modelo, añadiendo un extra de fiabilidad a la detección.

Detección de voces artificiales del modelo VALL-E

El modelo VALL-E es el nuevo modelo de lenguaje para la síntesis de texto a voz (TTS) de Microsoft. Esta herramienta solo necesita contar con una grabación de tres segundos para imitar una voz humana.

Sin embargo, y aunque el modelo puede considerarse una versión mejorada de deepfake, las voces siguen sonando robóticas, por lo que según nuestro departamento de I+D+i son fácilmente detectables.

No dudes en ponerte en contacto con nosotros si quieres conocer todo lo que nuestro departamento de I+D+i es capaz de hacer.

Elvira Carrero

Soy una mente inquieta con conocimientos en derecho, marketing y empresas. Una alquimista de la palabra, enamorada del neuromarketing y del copywriting, que ayuda a Mobbeel a seguir creciendo.

GUÍA

Conoce a tus clientes mediante su voz

Gracias a los avances en IA y procesamiento del lenguaje, la biometría de voz se ha convertido en una herramienta valiosa para la identificación en múltiples casos de uso. La voz, siendo única e intransferible, ofrece un nivel de seguridad y autentición sin precedentes.

Descargar

Deepfake de voz: ¿es posible detectar una voz artificial?

¿Qué es un deepfake de voz?

Pero ¿cómo se crea un deepfake de voz?

Elementos para crear un deepfake de voz

Proceso de creación de un deepfake de voz

Challenge AVSspoof: principal base de datos contra la falsificación de voz

Desafío AVSspoof 2021

Conclusiones y resultados del desafío

Cómo detectar deepfakes de voz con biometría

Métodos de detección

¿Cómo I+D+i Mobbeel detecta Deepfakes de voz?

Detección de voces artificiales del modelo VALL-E

Conoce a tus clientes mediante su voz

KYC para robots: ¿Cómo verificar la identidad de un agente de IA no humano?

Mujeres en la Ciencia y la Inteligencia Artificial

¿Múltiples proveedores o proveedor único de identidad digital?