Cómo saber si una llamada de voz es IA o no

¿Puedes creer lo que oyes? Cada vez más, la respuesta es no. Esto es lo que está en juego para su negocio y cómo vencer a los deepfakers.

23 de febrero de 2026
•
,
4 min. leer

Fingir por teléfono: cómo saber si una llamada de voz es IA o no

Hubo un tiempo en el que podíamos creer todo lo que veíamos y oíamos. Desafortunadamente, esos días probablemente ya pasaron. La IA generativa (GenAI) ha democratizado la creación de audio y vídeo deepfake, hasta el punto de que generar un clip fabricado es tan fácil como presionar uno o dos botones. Esta es una mala noticia para todos, incluidas las empresas.

Los deepfakes están ayudando a los estafadores a eludir las comprobaciones de autenticación de cuentas y de Conozca a su cliente. Incluso pueden permitir que actores estatales malintencionados se hagan pasar por candidatos a un puesto de trabajo. Pero podría decirse que la mayor amenaza que plantean es el fraude financiero/de transferencias bancarias y el secuestro de cuentas ejecutivas.

Las organizaciones subestiman la amenaza de los deepfake bajo su propio riesgo. El Reclamaciones del gobierno británico que el año pasado se compartieron hasta ocho millones de clips sintéticos, frente a sólo 500.000 en 2023. La cifra real puede ser mucho mayor.

Cómo funcionan los ataques

Como también lo demostró un experimento realizado por el asesor de seguridad global de ESET, Jake Moore, nunca ha sido tan fácil lanzar un ataque de audio deepfake en su empresa. Todo lo que se necesita es un breve clip de la víctima para hacerse pasar por ella. GenAI hará el resto. Así es como podría proceder un ataque:

Un atacante selecciona a la persona que va a suplantar. Podría ser un director ejecutivo, un director financiero o incluso un proveedor.
Encuentran una muestra de audio en línea, lo cual es bastante fácil para los ejecutivos de alto perfil que hablan regularmente en público. Puede provenir de una cuenta de redes sociales, una llamada de ganancias, una entrevista en video/televisión o cualquier otra fuente. Unos pocos segundos de metraje deberían ser suficientes.
Seleccionan a la persona a llamar. Esto puede requerir algo de investigación documental, generalmente buscando en LinkedIn personal del servicio de asistencia técnica de TI o miembros del equipo de finanzas.
Podrían llamar a la persona directamente o enviarle un correo electrónico con anticipación; por ejemplo, un director ejecutivo que solicita una transferencia de dinero urgente, una solicitud de restablecimiento de contraseña/autenticación multifactor (MFA) o un proveedor que exige el pago de una factura vencida.
Llaman al objetivo preseleccionado y utilizan audio deepfake generado por GenAI para hacerse pasar por el director ejecutivo/proveedor. Dependiendo de la herramienta, pueden limitarse a un discurso preestablecido o utilizar un método más sofisticado de “voz a voz” en el que la voz del atacante se traduce casi en tiempo real a la de su víctima.

Oír es creer

Este tipo de ataque es cada vez más barato, más fácil y más convincente. Algunas herramientas incluso pueden insertar ruido de fondo, pausas y tartamudeos para hacer que la voz suplantada suene más creíble. Están mejorando mucho en la imitación de los ritmos, la inflexión y los tics verbales exclusivos de cada hablante. Y cuando se lanza un ataque por teléfono, las fallas relacionadas con la IA pueden ser más difíciles de detectar para el oyente.

Los atacantes también pueden utilizar tácticas de ingeniería social, como presionar al oyente para que responda urgentemente a su solicitud, con el fin de lograr sus objetivos. Otro clásico es instar al oyente a mantener la solicitud confidencial. Si a eso le sumamos el hecho de que a menudo se hacen pasar por un alto ejecutivo, es fácil ver por qué algunas víctimas son engañadas. ¿Quién querría meterse en los malos libros del CEO?

Dicho esto, hay formas de detectar a un farsante. Dependiendo de qué tan sofisticada sea la GenAI que estén utilizando, es posible discernir:

Un ritmo antinatural en el discurso del orador.
Un tono emocional anormalmente plano en la voz del hablante.
Respiración antinatural o incluso frases sin aliento.
Un sonido inusualmente robótico (cuando usan herramientas menos avanzadas)
Ruido de fondo extrañamente ausente o demasiado uniforme

Es hora de contraatacar

La razón por la que los actores de amenazas dedican más tiempo a estafas como estas es simple: las posibles recompensas que se ofrecen. Los cuentos de advertencia se están acumulando constantemente. Uno de los mayores errores se produjo allá por 2020, cuando un empleado En una empresa de los Emiratos Árabes Unidos lo engañaron haciéndole creer que su director había llamado para solicitar una transferencia de fondos de 35 millones de dólares para un acuerdo de fusión y adquisición.

Dado que la tecnología deepfake ha mejorado significativamente en los seis años transcurridos desde entonces, vale la pena revisar algunos pasos clave que puedes tomar para minimizar las posibilidades de que se produzca el peor de los casos.

Debería comenzar con la formación y sensibilización de los empleados. Estos programas deben actualizarse para incluir simulaciones de audio deepfake para garantizar que el personal sepa qué esperar, qué está en juego y cómo actuar. Se les debe enseñar a detectar los signos reveladores de la ingeniería social y los escenarios típicos de deepfake como los descritos anteriormente. Se deben realizar ejercicios de formación de equipos rojos para comprobar qué tan bien los empleados están absorbiendo esta información.

Luego viene el proceso. Considere lo siguiente:

Verificación fuera de banda de cualquier solicitud telefónica, es decir, usar cuentas de mensajería corporativa para verificar con el remitente de forma independiente.
Dos personas para firmar cualquier transferencia financiera importante o cambios en los datos bancarios del proveedor.
Frases de contraseña o preguntas previamente acordadas que los ejecutivos deben responder para demostrar que son quienes dicen ser por teléfono

La tecnología también puede ayudar. Existen herramientas de detección para comprobar varios parámetros de la presencia de una voz sintética. Más difícil de implementar, pero otro curso de acción sería limitar las oportunidades para que los actores de amenazas obtengan audio, limitando las apariciones públicas de los ejecutivos.

Personas, procesos y tecnología.

Sin embargo, la conclusión es que los deepfakes son simples y su producción cuesta poco. Dadas las sumas potencialmente enormes en juego para los estafadores, es poco probable que veamos el fin de las estafas de clonación de voz en el corto plazo. Por lo tanto, un enfoque triple basado en personas, procesos y tecnología es la mejor opción que tiene su organización para mitigar el riesgo.

Una vez que se haya aprobado un plan, recuerde revisarlo periódicamente para que se ajuste a su propósito, incluso a medida que avanza la innovación en IA. El nuevo panorama del ciberfraude exige atención constante.