Reconeixement de la parla

El reconeixement automàtic de la parla (RAP) o reconeixement automàtic de veu és una part de la intel·ligència artificial que té com a objectiu permetre la comunicació parlada entre éssers humans i computadores electròniques. Un sistema de reconeixement de veu és una eina computacional, capaç de processar el senyal de veu i reconèixer la informació que porta. Les disciplines que intervenen en aquest procés són, la fisiologia, l'acústica, el processament de senyal (quantificació), la intel·ligència artificial i la ciència computacional.^[1]

El principal problema que es planteja en un sistema de RAP és el de fer cooperar un conjunt d'informacions que provenen de diverses fonts de coneixement: acústica, fonètica, fonològica, lèxica, sintàctica, semàntica i pragmàtica); en presència d'ambigüitats, incerteses i errors inevitables per arribar a obtenir una interpretació acceptable del missatge acústic rebut.

Es tracta d'una tecnologia que ha experimentat un major avanç en els últims anys, passant de poder reconèixer només a un parlant, dins un vocabulari limitat, fins a prototips que poden reconèixer qualsevol parlant sobre vocabularis flexibles de milers de paraules.

El procés de RAP intenta aconseguir una seqüència de paraules que corresponguin a la frase en el llenguatge natural d'entrada. La frase és pronunciada de forma contínua, sense pauses entre les paraules. D'aquesta manera no es generen problemes gramaticals. Per aquest motiu, aquests sistemes són força costosos en concepte de memòria de càlcul.

Característiques dels sistemes de reconeixement

Podem fer una primera aproximació als sistemes de reconeixement considerant tres paràmetres bàsics que els defineixen:

Tipus d'enunciat

Un sistema de reconeixement serà d'una manera o d'una altra segons els tipus d'enunciat. Es poden tractar únicament paraules aïllades, paraules connectades, paraules clau, parla contínua o espontàiea. Això comporta una sèrie de problemes.

Nombre de locutors

Sistemes dependents de locutors: sistemes preparats per a reconèixer un nombre limitat de locutors de manera que cada persona que vulgui fer servir el sistema l'ha d'entrenar prèviament.
Sistemes independents del locutor: accepten, d'entrada, les produccions de qualsevol persona encara que no l'hagi utilitzat mai abans.

Vocabulari

Hi ha tres tipus de reconeixedors segons la dimensió de vocabulari:

Vocabulari restringit: només poden processar el lèxic que s'ha definit prèviament.
Vocabulari sense restriccions: capaços de tractar qualsevol enunciat.
Vocabulari especialitzat

Tècniques per al reconeixement de la parla

Els sistemes de reconeixement utilitzen tècniques que depenen del tipus d'enunciat, del nombre de locutors i del vocabulari, però també depenen d'unitats com el di-fonema o les semisíl·labes. A més a més, disposen d'un diccionari d'unitats de reconeixement per detectar els elements que constitueixen la cadena sonora d'entrada. Aquestes unitats poden estar parametritzades, definides en termes de les seves característiques acústiques. Per aquest motiu, el senyal que arriba al reconeixedor s'ha d'analitzar acústicament en termes dels paràmetres utilitzats per emmagatzemar les unitats en el diccionari.

Podem definir diverses tècniques de reconeixement de la parla automàtica:

Tècniques de programació dinàmica (DTW)

Aquesta tècnica consisteix en realitzar una comparació entre els patrons o plantilles de les que disposa el sistema amb el senyal acústic rebut a l'entrada. D'aquesta forma s'obtenen els candidats possibles als quals pot pertànyer el senyal. També conegut com a model acústic.

El model de reconeixement de patrons

Es basa en la comparació directa entre l'entrada sonora i una sèrie de "plantilles sonores", enregistrades prèviament, sense fer abans cap anàlisi acústica del senyal. El sistema farà la comparació i decidirà sobre la identitat del senyal d'entrada segons el grau de semblança entre alguna plantilla ja coneguda.

Model de la intel·ligència artificial

Es considera un híbrid entre els model anteriors, l'objectiu d'aquest model és la mecanització del procés d'integració i comprensió de la cadena sonora per part dels parlants d'una llengua. Consta d'un sistema de segmentació i etiquetatge de la cadena sonora d'entrada, basant en l'anàlisi acústic del senyal semblant a la del model acústic. S'afegeix a més a més un "entrenament" perquè el sistema pugui aprendre a relacionar l'entrada acústica amb les unitats fonètiques, lèxiques, etc.

Model ocult de Màrkov (HMM)

Un model ocult de Màrkov es pot considerar com un tipus d'autòmata finit, ja que està format per una sèrie d'estats que tenen una connexió directe mitjançant transicions. Al aplicar aquests models ocults de Màrkov al reconeixement de la parla, cada estat indica quins són aquells sons amb més probabilitats de correspondre a un segment de la parla.

Disseny d'un sistema de RAP

Aprenentatge: S'utilitza per a construir les diverses fonts de coneixement del sistema. Existeixen dos tipus:

Aprenentatge deductiu: Les seves tècniques es basen en la transferència de coneixements d'un ésser humà a un sistema informàtic. Utilitzats principalment en sistemes basats en el coneixement i en sistemes experts.
Aprenentatge inductiu: Les tècniques d'aprenentatge inductiu es basen en el fet que el sistema pugui aconseguir els coneixements necessaris a partir d'exemples de forma automàtica. Basat en els sistemes ocults de Markov.

Esquema de disseny

A la pràctica no existeixen metodologies que només estan basades en l'aprenentatge inductiu, sinó que s'assumeix un compromís deductiu-inducitiu en el qual els aspectes generals s'aprenen deductivament i les caracterització de la variabilitat inductivament.

Descodificador acústic-fonètic: Les fonts d'informació acústica i fonètica donen lloc a un mòdul conegut com a Descodificador acústic fonètic. L'entrada al decodificador és el senyal vocal convenientment representat. Per poder dur a terme aquesta tasca, és necessari que passi però un preprocés de parametrització (s'assumeix algun model físic tals com a model auditius i models articulatoris).
Model de llenguatge: El model del llenguatge estarà format per les fonts de coneixement sintàctiques, pragmàtiques i semàntiques. L'objectiu serà realitzar una correcta interpretació des d'aquests tres punts de vista. Igual que en el cas del decodificador acústic-fonètic, a l'hora de dissenyar un model del llenguatge sorgiran una sèrie de problemes de difícil solució. Primer, cal dir que en l'actualitat, la tendència és que la sintaxi i la semàntica estiguin integrades, la qual cosa representa un problema a l'hora de representar-les. Això es deu fonamentalment al fet que els sistemes de reconeixement de la parla presenten grans restriccions de tipus semàntic i sintàctic, el que implica que hi hagi forts llaços d'unió entre ambdues. Les mesures principals que s'estan prenent al respecte provenen del camp dels llenguatges formals i del llenguatge natural. I en segon lloc, altres problemes són l'ús del diàleg i la prosòdia (accents, tons, entonació) entre la pròpia persona i el sistema de reconeixement.

Arquitectura d'un sistema de RAP

Al llarg de la història del reconeixement automàtic de la parla (RAP) s'han utilitzat diferents enfocaments per resoldre el problema del reconeixement i la interpretació del llenguatge natural. Els enfocaments basats en la teoria probabilística són els que han donat millors resultats.

Entrenament: és la fase on el sistema aprèn, mitjançant mostres de veu i text, els models acústics P(0|W) i models de llenguatge P(W).
Reconeixement: és la fase on el senyal acústic és transcrit en una seqüència de paraules d'acord amb la fórmula fonamental del RAP.

El problema matemàtic de la RAP es formula des del punt de vista estadístic. La probabilitat condicional P(W|O) és la probabilitat que la seqüència de paraules W s'hagin pronunciat donada l'observació de les dades acústiques O. El sistema de reconeixement, per tant, ha de decidir a favor de la seqüència de paraules W que maximitzi la probabilitat P(W|O). La fórmula fonamental del reconeixement de la parla (RAP) és: $W=arg_{w}maxP(W|O)\,P(W)$

Esquema d'un sistema RAP

Per reescriure la probabilitat condicionada hem d'utilitzar la fórmula del Teorema de Bayes, on: $P(W|O)={\frac {P(O|W)}{P(W)}}P(O)$

P(W) és la probabilitat de la seqüència de paraules W
P(O|W) és la probabilitat d'observar la seqüència de dades acústiques O quan es pronuncia la seqüència de paraules W
P(O) és la probabilitat de la seqüència de dades acústiques O

Aplicacions del reconeixement de la parla

El Reconeixement de la parla s'utilitza en les situacions que requereixen l'ús d'aquesta tecnologia. Són aquelles en què la introducció de la informació en un ordinador es realitza a través de la veu. Segons aquest criteri es dividiran en aplicacions que requereixen únicament el reconeixement de paraules aïllades i les que han de poder tractar la parla contínua.

Reconeixement de paraules aïllades

Entorns industrials: la manipulació d'objectes, peces i productes que alhora s'han d'anotar les característiques, les quantitats..,etc. El control mitjançant la veu dels moviments d'un robot, sistemes de reconeixement de paraules aïllades per controlar les funcions d'un programa informàtic, entrada de mots o nombres a un sistema de dades, etc.
Entorn domèstic: control d'electrodomèstics, en un cotxe el reconeixement de paraules aïllades pot ser útil per una conducció més segura, o una de les aplicacions més conegudes actualment que és el marcatge de telèfon per veu.
Navegació aèria: s'utilitza el reconeixement per realitzar certes operacions en moments en què es manipulen diversos controls i és necessari tenir les mans lliures.

Reconeixement de parla contínua

Vocabularis específics: desenvolupat per aquelles tasques en les que el dictat és habitual: informes mèdics, documents jurídics, etc.

Problema del RAP

És difícil portar a terme un reconeixement automàtic de la parla degut a una sèrie de problemes dels quals s'ha d'aconseguir la solució més òptima. Les causes d'aquests problemes són:

Les variacions de fonació degut als parlants: Cada persona produeix uns sons diferents encara que mantenen certes relacions fonètiques.
Les ambigüitats acústiques: Com a conseqüència és difícil una bona decodificació. Això pot ser degut a:

- Una mala pronunciació de les paraules: L'omissió de paraules de durada breu o la transformació d'aquestes en sons estranys. També, la velocitat elevada del parlant al pronunciar les paraules pot produir la fusió o omissió d'algunes síl·labes.

- Variacions fonètiques: Les freqüències dels formants i la duració de les transicions pot canviar al llarg del temps, el que provoca un canvi dels patrons o regles utilitzats al reconeixement.

- Variacions temporals: Les duracions d'una paraula o dels sons poden canviar.

Soroll i interferències: Les persones podem reconèixer la parla en condicions de baixa SNR (relació senyal-soroll) i en presència d'altres sons.

La solució a aquests problemes sembla en un futur llunyà, encara que hi ha tècniques per simplificar aquests problemes.

Solucions

La teoria de la decisió estadística ens explica com minimitzar la probabilitat de cometre errors durant el reconeixement, és a dir, trobar la seqüència de paraules amb probabilitat més alta d'estar associada a la seqüència d'observacions acústiques d'entrada. El Teorema de Bayes simplifica la dificultat anterior que es converteix en un problema de trobar la seqüència de paraules que produeix un màxim de probabilitat (model de llenguatge) i produeix la seqüència d'observacions amb màxima probabilitat (model acústic). S'haurà de portar a terme una decodificació lingüística i una acústica.

Per resoldre el nou problema necessitarem les restriccions de la llengua a través del model gramatical. La decisió de les paraules reconegudes es pren mitjançant l'ús d'un procediment d'optimització ("cerca d'un espai d'estats") que utilitza: model de llenguatge, model acústic i diccionari que indica la composició de les paraules.

Fases de conversió parla-text

Els sistemes que es basen en models de fonètica acústica poden distingir tres etapes que analitzen l'entrada sonora i les freqüències dels formants que poden variar segons el tracte vocal, velocitat de locució,etc. Un cop s'identifiquen els sons que pertanyen a la cadena d'entrada es realitza el reconeixement lingüístic (identificació de paraules i frases) per tal de dur el reconeixement el sistema sol incorporar un diccionari de mots possibles i un model de llenguatge que codifica la freqüència d'aparició de diferents mots.

Reconeixement text-parla

Esquema text-parla

Els sistemes de síntesi de veu són aquells que permeten convertir una entrada escrita a una sortida parlada, simulant els procés humà de llegir en veu alta. Aquests sistemes també són coneguts com a TTS o text-to-speech. Un sistema de conversió de text en parla transforma qualsevol text escrit en la seva realització sonora. Les etapes en fer la conversió són les següents:

Processament previ del text: Aquest mòdul realitza les mateixes operacions que un parlant llegint en veu alta. Ens podem trobar amb problemes d'identificació en els següents casos:
- Abreviatures (Sr., Exmo...)
- Sigles (UPC, ONU...)
- Dates (26.09.2009...)
- Hores (14.50 h...)
- Mesures (m, cm...)
- Nombres romans (IV, XVII...)
- Caràcters especials ($, @...)

Transcripció fonètica automàtica i anàlisi lingüística: En aquest apartat es crea una cadena d'unitats fonètiques a partir del text escrit preprocessat. Un sistema de transcripció fonètica és un algorisme que transforma un text d'entrada en una representació expressada mitjançant símbols fonètics.
Assignació d'elements prosòdics: Formen un conjunt de regles que especifiquen la duració i la intensitat dels segments, el contorn melòdic de l'enunciat i la col·locació i duració de les pauses.
Conversió en paràmetres acústics: Conjunt de regles que tenen com a objectiu assignar valors de paràmetres acústics a cada segment o a cada unitat de sintèsi i especificar les transicions entre segments. Els valors dels paràmetres acústics controlen un sintetitzador que produeix una ona sonora corresponent al missatge.

Hi ha diverses classificacions possibles dels sistemes de síntesi de veu, però la més comuna és la referida al tipus de codificació de veu i al nombre de regles que es necessiten per la seva reconstrucció posterior.

Aquests sistemes de síntesi de veu es poden classificar en: