Les novel·les i pel·lícules futuristes han estat sempre una font d’inspiració per als que treballem en el desenvolupament de tecnologia. L’ordinador HAL de 2001: Una odissea de l’espai és la referència clàssica de les anomenades tecnologies de la parla i del llenguatge, desenvolupades per facilitar i humanitzar la comunicació entre l’home i les màquines.
Avui en dia ja no cal recórrer a la ciència ficció per explicar les possibilitats que ofereixen aquestes tecnologies. Aplicacions tan populars com Siri, l’assistent personal de l’empresa Apple, usa les tecnologies de la parla i del llenguatge per comunicar-se de forma oral amb els usuaris donant resposta a les seves preguntes, oferint recomanacions i executant accions. Però encara es pretén arribar més lluny per aconseguir que les màquines entenguin, no només les paraules, sinó tota la informació addicional que hi ha a la veu: qui parla, la seva edat, la seva personalitat, el seu accent, el seu estat d’ànim, la seva satisfacció amb el servei, etc., i que a més després sàpiguen utilitzar aquesta informació per respondre de forma més adequada, per exemple amb grau correcte de formalitat en el llenguatge o d’emotivitat en la veu.
TALP UPC (Centre de Tecnologies i Aplicacions del Llenguatge i de la Parla, membre de CIT UPC) porta més de 25 anys desenvolupant tecnologia de la parla i del llenguatge, i col·laborant amb les empreses per convertir aquestes tecnologies en solucions.
En aplicacions com l’automatització i millora dels centres d’atenció telefònica, la tecnologia de la parla permet entendre i respondre les preguntes més habituals dels clients, com la consulta del saldo d’un compte bancari. Però fins i tot quan les converses són entre persones, la tecnologia de la parla i del llenguatge ens permet no només transcriure la conversa, sinó analitzar-la per obtenir un resum o per avaluar, per exemple, el grau de satisfacció del client o el seu desgrat en funció del to de veu.
El subtitulat de pel·lícules o programes de televisió és una altra de les aplicacions reals on s’utilitza la tecnologia desenvolupada en el TALP. En cadenes de televisió com TV3 cal subtitular desenes de programes cada dia, alguns d’ells en directe, i l’ús de la tecnologia de la parla ha estat la clau per poder seguir oferint subtítols de qualitat amb un cost menor.
Una altra aplicació important d’aquestes tecnologies és la traducció automàtica de veu o de text. TALP UPC ha participat en diversos projectes europeus d’R+D en traducció automàtica, i participa habitualment, amb bons resultats, en avaluacions competitives de la qualitat dels sistemes desenvolupats.
Amb vista al futur, el cinema ens serveix de nou per trobar un referent amb la recent pel·lícula Her, on l’assistent personal per veu és capaç de captar i transmetre emocions. Per oferir millors resultats i oferir solucions innovadores en tots els àmbits, els sistemes de reconeixement de la parla dels propers anys hauran d’anar més enllà de les paraules i captar també tota la informació paralingüística possible. L’anàlisi dels sentiments i les emocions en la parla i en el llenguatge és un tema d’investigació en alça, així com la generació de veu i text més expressius.
Una altra aplicació relacionada, que ja s’està començant a utilitzar de forma habitual per les empreses, és l’anàlisi automatitzat d’opinions. Aquesta tecnologia de processament del llenguatge natural s’ha convertit en una de les millors eines per extreure informació dels milions de missatges intercanviats diàriament a les xarxes socials i mitjans de comunicació, per d’aquesta manera, poder realitzar un seguiment de la presència, la imatge i la reputació de l’empresa.
Dr. José Adrián Rodríguez Fonollosa
Investigador en el Centre de Tecnologies i Aplicacions del Llenguatge i de la Parla (TALP UPC) y guanyador del 1st Prize GE Flight Quest 2 de General Electric (2014)