Todos podemos recordar las voces aburridas y monótonas de las máquinas que nos vimos obligados a escuchar cuando la tecnología de texto a voz (TTS) y la Inteligencia Artificial (AI) eran nuevas. ¿Quién no ha experimentado una voz de contestadora tan aburrida que nos dormiría si estuviéramos sometidos a ella por largo tiempo? Afortunadamente para nosotros, con la creación del TTS neuronal, estas voces de máquinas aburridas se están convirtiendo en algo del pasado. Además, estas mejoras tecnológicas han permitido que compañías como Vozy brinden productos de alta calidad, incluidos agentes virtuales que nos pueden hablar en diferentes acentos en español.

Mejoras hechas a la tecnología de texto a voz 

Es comprensible que uno de los primeros aspectos de la tecnología de texto a voz y de inteligencia artificial que las empresas intentaron refinar fue el sonido de las voces de las máquinas. Muchos usuarios encuentran el sonido de estas voces desagradable y agotador. Por esta razón, las compañías de tecnología comenzaron a buscar reemplazar los modelos TTS estándar con modelos TTS neuronales. Esta tecnología ha dado como resultado voces de máquinas que suenan más naturales y agradables de escuchar. Se han realizado estudios en los que se ha pedido a los participantes que escuchen grabaciones producidas usando texto pasado a voz y grabaciones producidas usando actores humanos. La mayoría de los participantes, en estos estudios, han dicho que disfrutaban escuchando las grabaciones producidas por la tecnología de texto neuronal tanto como las grabaciones hechas con actores humanos.

 

El proceso del texto a voz neuronal

Estas voces que suenan más realistas se lograron haciendo algunos cambios en los procesos que usan las computadoras para convertir el texto en voz. Vozy, como empresa líder de tecnología, ha lanzado su sombrero al juego de Texto a voz neuronal. En términos generales, el proceso de convertir el texto en sonido se ha simplificado. Los modelos estándar anteriores dividian el texto en unidades más pequeñas y comenzaban a unir diferentes audios de acuerdo con las unidades anteriores o siguientes. Estos modelos requieren un gran conjunto de datos de audios para que cada unidad represente correctamente una transición. Como podemos ver, estos modelos son largos y complicados.

En contraste, el proceso neuronal de texto a voz es más conciso. Los pasos son los siguientes: el texto primero se coloca en el sistema, se envía a un generador acústico, luego se envía a un vocoder acústico y, finalmente, se produce el sonido. Un beneficio adicional de este método simplificado es que la computadora puede interactuar con el usuario casi en tiempo real.

Un aspecto emocionante de la tecnología de text-to-speech y de inteligencia artificial es la posibilidad de enseñar a las máquinas a adaptarse a nuevos estilos de habla más rápido de lo que un humano podría aprenderlas. Con el modelo neuronal, a una máquina le toma unas horas aprender un nuevo estilo de hablar. En contraste, le tomaría a un humano un tiempo significativamente más largo para aprender el mismo estilo. 

Aquí puedes escuchar un demo NPS con acento Argentino.

 

¿Qué está haciendo Vozy con la tecnología de texto a voz neuronal?

Naturalmente, estas mejoras en la tecnología texto a voz neuronal nos han llevado al desarrollo de máquinas que pueden hablar con diferentes acentos. Esta tecnología ha estado disponible en idiomas como el inglés. Sin embargo, Vozy es la única compañía en América Latina que brinda esta tecnología en español. Actualmente ofrecemos texto a voz neuronal en más de ocho acentos en español, incluyendo colombianos, mexicanos, argentinos, chilenos, peruanos, puertorriqueños y venezolanos. Como sabemos, la forma en que se pronuncian las palabras en el mismo idioma puede variar dependiendo de dónde sea el hablante.

Por ejemplo, imagine la diferencia entre hablar con una persona en Colombia y hablar con una persona en Puerto Rico. Si le preguntamos a la persona en Colombia: «¿Dónde estacionó su auto?», Él o ella puede responder: «Lo deje en el parqueadero». Si le hacemos la misma pregunta a la persona de Puerto Rico, él o ella responderá fonéticamente, «Estacioné  mi carro en el estacionamiento». Si ambas personas tuvieran un dispositivo habilitado con la tecnología texto a voz neuronal para hablar, sus dispositivos les hablarían con sus respectivos acentos. Lo mismo pasa para las empresas que utilizan máquinas habilitadas en español. Por ejemplo, con la tecnología de redes neuronales, ahora es posible que una empresa mexicana tenga un agente virtual para llamar a sus clientes con acento mexicano. También se aplica a una empresa de habla hispana colombiana, argentina o cualquier otra.

Aquí puedes escuchar un demo NPS con acento Colombiano.

 

Proceso del Texto a voz neuronal en Vozy

El proceso que utilizamos para proporcionar a nuestros clientes un agente virtual que habla en diferentes acentos del español, es similar al proceso que han utilizado las grandes empresas. El machine learning se utiliza para convertir texto codificado como una cadena de caracteres en una secuencia de coeficientes cepstrum. Luego, se convierten en una señal de audio continua mediante un vocoder neuronal.

La tecnología TTS neuronal con inteligencia artificial de Vozy aumenta el campo tecnologico para las empresas en Latíno America. Comenzando con nuestros agentes virtuales, hay muchas formas en que esta tecnología puede hacer que la experiencia tecnológica de nuestros clientes sea más agradable. Con la ayuda de la tecnología de Vozy, las empresas de habla hispana ahora pueden aprovechar estas mejoras en los modelos de texto a voz mientras usan máquinas que hablan con su propio acento.

Aquí puedes escuchar un demo NPS con acento Mexicano.


 
La creación de modelos neuronales ha dado paso a una nueva era de la tecnología de texto a voz. Ahora, las voces que emiten las máquinas alimentadas por TTS neuronal son tan realistas que a veces preferiríamos escucharlas en lugar de personas reales. Vozy está a la vanguardia de esta nueva era digital y, se compromete a ofrecer a nuestros clientes en toda América Latina productos de alta calidad impulsados ​​por TTS neuronal que les permitirán interactuar con su clientela en sus acentos específicos.