Las novelas y películas futuristas han sido siempre una fuente de inspiración para los que trabajamos en el desarrollo de tecnología. El ordenador HAL de 2001: Una odisea del espacio es la referencia clásica de las denominadas tecnologías del habla y del lenguaje, desarrolladas para facilitar y humanizar la comunicación entre el hombre y las máquinas.
Hoy en día ya no es necesario recurrir a la ciencia ficción para explicar las posibilidades que ofrecen estas tecnologías. Aplicaciones tan populares como Siri, el asistente personal de la empresa Apple, usa las tecnologías del habla y del lenguaje para comunicarse de forma oral con los usuarios dando respuesta a sus preguntas, ofreciendo recomendaciones y ejecutando acciones. Pero aún se pretende llegar más lejos para conseguir que las máquinas entiendan, no sólo las palabras, sino toda la información adicional que hay en la voz: quién habla, su edad, su personalidad, su acento, su estado de ánimo, su satisfacción con el servicio, etc., y que además luego sepan utilizar esta información para responder de forma más adecuada, por ejemplo con grado correcto de formalidad en el lenguaje o de emotividad en la voz.
TALP UPC (Centro de Tecnologías y Aplicaciones del Lenguaje y del Habla, miembro de CIT UPC) lleva más de 25 años desarrollando tecnología del habla y del lenguaje, y colaborando con las empresas para convertir estas tecnologías en soluciones.
En aplicaciones como la automatización y mejora de los centros de atención telefónica, la tecnología del habla permite entender y responder las preguntas más habituales de los clientes, como la consulta del saldo de una cuenta bancaria. Pero incluso cuando las conversaciones son entre personas, la tecnología del habla y del lenguaje nos permite no sólo transcribir la conversación, sino analizarla para obtener un resumen o para evaluar, por ejemplo, el grado de satisfacción del cliente o su desagrado en función del tono de voz.
El subtitulado de películas o programas de televisión es otra de las aplicaciones reales donde se utiliza la tecnología desarrollada en el TALP. En cadenas de televisión como TV3 es necesario subtitular decenas de programas cada día, algunos de ellos en directo, y el uso de la tecnología del habla ha sido la clave para poder seguir ofreciendo subtítulos de calidad con un coste menor.
Otra aplicación importante de estas tecnologías es la traducción automática de voz o de texto. TALP UPC ha participado en varios proyectos europeos de I+D en traducción automática, y participa habitualmente, con buenos resultados, en evaluaciones competitivas de la calidad de los sistemas desarrollados.
De cara al futuro, el cine nos sirve de nuevo para encontrar un referente con la reciente película Her, donde el asistente personal por voz es capaz de captar y transmitir emociones. Para ofrecer mejores resultados y ofrecer soluciones innovadoras en todos los ámbitos, los sistemas de reconocimiento del habla de los próximos años deberán ir más allá de las palabras y captar también toda la información paralingüística posible. El análisis de los sentimientos y las emociones en el habla y en el lenguaje es un tema de investigación en alza, así como la generación de voz y texto más expresivos.
Otra aplicación relacionada, que ya se está empezando a utilizar de forma habitual por las empresas, es el análisis automatizado de opiniones. Esta tecnología de procesado del lenguaje natural se ha convertido en una de las mejores herramientas para extraer información de los millones de mensajes intercambiados diariamente en las redes sociales y medios de comunicación, para de esta manera, poder realizar un seguimiento de la presencia, la imagen y la reputación de la empresa.
Dr. José Adrián Rodríguez Fonollosa
Investigador en el Centro de Tecnologías y Aplicaciones del Lenguaje y del Habla (TALP UPC) y ganador del 1st Prize GE Flight Quest 2 de General Electric (2014)