Icono del sitio En Plan Planeta

La revolución de las voces sintéticas con IA

Seguimos con el capítulo 18 de “Inteligencia artificial generativa para gente real. Tu brújula para usarla bien”, una serie semanal para la Cadena Ser, en «A vivir Cantabria». Hoy hablamos de la revolución de las voces sintéticas con IA.

¿Alguna vez has escuchado un podcast o un audiolibro y has sentido que la voz era perfecta, pero algo en tu instinto te decía que no era del todo humana? Bienvenidos a una nueva frontera. En el último episodio de nuestro programa, decidimos hacer un experimento: cloné mi propia voz con IA y la utilicé para presentar el inicio del espacio. ¿El resultado? Quizá muchos oyentes no notaron la diferencia.

Estamos viviendo la revolución de las voces sintéticas, un campo de la inteligencia artificial generativa que nos toca de cerca porque la voz es, quizás, nuestro rasgo más personal y humano. Se puede escuchar el programa aquí, a partir del minuto 20:04: https://cadenaser.com/audio/ser_cantabria_avivircantabria_20260315_130506_140000/

De Stephen Hawking a la perfección absoluta

Para entender dónde estamos, hay que mirar atrás. En los años 80 y 90, las voces sintéticas eran puramente robóticas. El ejemplo más famoso es el de Stephen Hawking, quien utilizaba el sistema DECtalk. Era funcional, pero nadie lo confundía con una persona. Luego llegaron Siri y Alexa, que mejoraron el tono pero seguían sonando artificiales.

El salto cuántico ha llegado con las redes neuronales profundas. Estos sistemas ya no solo «leen», sino que aprenden de miles de horas de voz humana real. Hoy debemos distinguir dos conceptos clave:

El dato escalofriante: Actualmente, algunos modelos de IA necesitan menos de tres segundos de audio para clonar una voz de forma efectiva. Un simple audio de WhatsApp es suficiente.

¿Cómo logra una máquina sonar tan humana?

La IA moderna no solo genera sonido; aprende patrones de prosodia, entonación y ritmo. Incluso es capaz de simular la respiración y las pausas naturales. Si el texto tiene una pregunta, la IA sube la entonación automáticamente; si el contenido es dramático, cambia el ritmo. No es que la máquina «entienda», es que domina los patrones estadísticos de nuestra forma de hablar.

Aplicaciones que están cambiando el mundo

Medios y contenido: Audiolibros en Apple Books o Google Play ya usan narración automática. Hay podcasters que producen episodios enteros sin acercarse a un micrófono.

Educación: Creación de audioclases de repaso instantáneas y materiales accesibles para personas con discapacidad visual en cualquier idioma.

Accesibilidad y salud: Este es el uso más humano. En España, el caso de Fran, un afectado de ELA, es inspirador. Gracias a un proyecto de la Universidad Politécnica de Valencia, pudo recuperar su voz digitalmente a partir de antiguos audios de WhatsApp con solo 20 minutos de grabación.

Industria audiovisual: El doblaje multilingüe está siendo transformado por empresas como ElevenLabs, HeyGen o Deepdub, permitiendo que un actor «hable» otros idiomas manteniendo su timbre original.

Atención al cliente: Empresas como Deutsche Telekom y Revolut ya emplean agentes de voz que imitan matices emocionales, aunque la normativa actual obliga a identificar siempre que estás hablando con una máquina.

El fenómeno ElevenLabs

Si hay una empresa que lidera este sector es ElevenLabs. Fundada en 2022 por dos polacos que querían mejorar los malos doblajes de las películas americanas, su crecimiento ha sido vertical:

Sin embargo, no están solos. El auge de los modelos de código abierto permite que hoy cualquiera pueda ejecutar estas tecnologías en su propio ordenador sin depender de grandes corporaciones.

La cara oscura: Deepfakes y estafas

No todo es positivo. El riesgo de los deepfakes de voz es real y creciente. Los casos de fraude con esta tecnología crecieron un 3.000% en 2024.

¿Por qué caemos en el engaño?

RazónExplicación
Micro-tembloresLa IA recrea las pequeñas imperfecciones y grietas de la voz humana.
ProsodiaEl algoritmo inserta «mmm…» y respiraciones en los momentos justos.
FamiliaridadSi escuchamos la voz de un ser querido, nuestro cerebro deja de analizar y confía automáticamente.

Regulación y el futuro del sector profesional

La Ley de Inteligencia Artificial de la UE (AI Act) ya exige transparencia y el etiquetado de contenidos generados por IA. Además, la voz empieza a tratarse como un dato biométrico. Casos como el de Scarlett Johansson contra OpenAI en 2024 han sentado precedentes sobre los derechos de imagen vocal.

Esto genera una tensión lógica en el mundo de los locutores y actores de doblaje. Mientras la tecnología democratiza la producción sonora para pequeños creadores, pone en riesgo empleos tradicionales. La huelga de Hollywood en 2023 ya marcó la importancia de proteger estos derechos.

Consejos para protegerte

  1. Desconfía de la urgencia: Si te piden dinero, sospecha siempre.
  2. Cuelga y comprueba: Llama tú al número que tengas guardado de esa persona.
  3. Palabra clave: Acuerda una «palabra de seguridad» con tus familiares para casos de emergencia.

¿Qué nos espera?

El futuro apunta a voces totalmente indistinguibles, traducciones en tiempo real que mantienen tu propia personalidad vocal y personajes virtuales capaces de razonar y conversar con nosotros.

Durante milenios, la voz fue la prueba de que había un humano al otro lado. Hoy, esa certeza ha desaparecido. Nos toca ser más críticos, exigir transparencia y estar informados. Yo, por mi parte, os prometo que sigo siendo yo quien escribe estas líneas… al menos de momento.

¡Hasta la semana que viene!

Salir de la versión móvil