La revolución de las voces sintéticas con IA

Alfonso Peña

hace 3 semanas

Seguimos con el capítulo 18 de “Inteligencia artificial generativa para gente real. Tu brújula para usarla bien”, una serie semanal para la Cadena Ser, en «A vivir Cantabria». Hoy hablamos de la revolución de las voces sintéticas con IA.

¿Alguna vez has escuchado un podcast o un audiolibro y has sentido que la voz era perfecta, pero algo en tu instinto te decía que no era del todo humana? Bienvenidos a una nueva frontera. En el último episodio de nuestro programa, decidimos hacer un experimento: cloné mi propia voz con IA y la utilicé para presentar el inicio del espacio. ¿El resultado? Quizá muchos oyentes no notaron la diferencia.

Estamos viviendo la revolución de las voces sintéticas, un campo de la inteligencia artificial generativa que nos toca de cerca porque la voz es, quizás, nuestro rasgo más personal y humano. Se puede escuchar el programa aquí, a partir del minuto 20:04: https://cadenaser.com/audio/ser_cantabria_avivircantabria_20260315_130506_140000/

De Stephen Hawking a la perfección absoluta

Para entender dónde estamos, hay que mirar atrás. En los años 80 y 90, las voces sintéticas eran puramente robóticas. El ejemplo más famoso es el de Stephen Hawking, quien utilizaba el sistema DECtalk. Era funcional, pero nadie lo confundía con una persona. Luego llegaron Siri y Alexa, que mejoraron el tono pero seguían sonando artificiales.

El salto cuántico ha llegado con las redes neuronales profundas. Estos sistemas ya no solo «leen», sino que aprenden de miles de horas de voz humana real. Hoy debemos distinguir dos conceptos clave:

Text-to-speech (TTS): Convertir un texto escrito en voz eligiendo un modelo de un catálogo.
Clonación de voz: La máquina analiza una muestra de tu voz real (tono, acento, ritmo) y crea una copia digital.

El dato escalofriante: Actualmente, algunos modelos de IA necesitan menos de tres segundos de audio para clonar una voz de forma efectiva. Un simple audio de WhatsApp es suficiente.

¿Cómo logra una máquina sonar tan humana?

La IA moderna no solo genera sonido; aprende patrones de prosodia, entonación y ritmo. Incluso es capaz de simular la respiración y las pausas naturales. Si el texto tiene una pregunta, la IA sube la entonación automáticamente; si el contenido es dramático, cambia el ritmo. No es que la máquina «entienda», es que domina los patrones estadísticos de nuestra forma de hablar.

Aplicaciones que están cambiando el mundo

Medios y contenido: Audiolibros en Apple Books o Google Play ya usan narración automática. Hay podcasters que producen episodios enteros sin acercarse a un micrófono.

Educación: Creación de audioclases de repaso instantáneas y materiales accesibles para personas con discapacidad visual en cualquier idioma.

Accesibilidad y salud: Este es el uso más humano. En España, el caso de Fran, un afectado de ELA, es inspirador. Gracias a un proyecto de la Universidad Politécnica de Valencia, pudo recuperar su voz digitalmente a partir de antiguos audios de WhatsApp con solo 20 minutos de grabación.

Industria audiovisual: El doblaje multilingüe está siendo transformado por empresas como ElevenLabs, HeyGen o Deepdub, permitiendo que un actor «hable» otros idiomas manteniendo su timbre original.

Atención al cliente: Empresas como Deutsche Telekom y Revolut ya emplean agentes de voz que imitan matices emocionales, aunque la normativa actual obliga a identificar siempre que estás hablando con una máquina.

El fenómeno ElevenLabs

Si hay una empresa que lidera este sector es ElevenLabs. Fundada en 2022 por dos polacos que querían mejorar los malos doblajes de las películas americanas, su crecimiento ha sido vertical:

Valoración: En febrero de 2026, han cerrado una ronda de financiación de 500 millones de dólares, alcanzando una valoración de 11.000 millones. (En 2025 valían 3.300 millones; han triplicado su valor en un año).
Ingresos: Cerraron 2025 con más de 330 millones de dólares en ingresos recurrentes.
Capacidades: Soporta más de 70 idiomas y permite el uso de «etiquetas de emoción» para susurrar, gritar o suspirar.

Sin embargo, no están solos. El auge de los modelos de código abierto permite que hoy cualquiera pueda ejecutar estas tecnologías en su propio ordenador sin depender de grandes corporaciones.

La cara oscura: Deepfakes y estafas

No todo es positivo. El riesgo de los deepfakes de voz es real y creciente. Los casos de fraude con esta tecnología crecieron un 3.000% en 2024.

Estafas corporativas: En 2019, clonaron la voz de un CEO británico para robar 220.000 euros. En 2024, una empresa en Hong Kong perdió 25 millones de dólares tras una videollamada falsa.
Suplantación política: En las primarias de EE. UU. de 2024, se usó una voz clonada de Joe Biden para desincentivar el voto.
Fraude familiar: El INCIBE ha alertado sobre llamadas a familiares pidiendo dinero urgente usando voces clonadas.

¿Por qué caemos en el engaño?

Razón	Explicación
Micro-temblores	La IA recrea las pequeñas imperfecciones y grietas de la voz humana.
Prosodia	El algoritmo inserta «mmm…» y respiraciones en los momentos justos.
Familiaridad	Si escuchamos la voz de un ser querido, nuestro cerebro deja de analizar y confía automáticamente.

Regulación y el futuro del sector profesional

La Ley de Inteligencia Artificial de la UE (AI Act) ya exige transparencia y el etiquetado de contenidos generados por IA. Además, la voz empieza a tratarse como un dato biométrico. Casos como el de Scarlett Johansson contra OpenAI en 2024 han sentado precedentes sobre los derechos de imagen vocal.

Esto genera una tensión lógica en el mundo de los locutores y actores de doblaje. Mientras la tecnología democratiza la producción sonora para pequeños creadores, pone en riesgo empleos tradicionales. La huelga de Hollywood en 2023 ya marcó la importancia de proteger estos derechos.

Consejos para protegerte

Desconfía de la urgencia: Si te piden dinero, sospecha siempre.
Cuelga y comprueba: Llama tú al número que tengas guardado de esa persona.
Palabra clave: Acuerda una «palabra de seguridad» con tus familiares para casos de emergencia.

¿Qué nos espera?

El futuro apunta a voces totalmente indistinguibles, traducciones en tiempo real que mantienen tu propia personalidad vocal y personajes virtuales capaces de razonar y conversar con nosotros.

Durante milenios, la voz fue la prueba de que había un humano al otro lado. Hoy, esa certeza ha desaparecido. Nos toca ser más críticos, exigir transparencia y estar informados. Yo, por mi parte, os prometo que sigo siendo yo quien escribe estas líneas… al menos de momento.

¡Hasta la semana que viene!