211service.com
L'apprendimento automatico migliora le capacità di trascrizione vocale in arabo
Fornito da Fondazione del Qatar
Grazie ai progressi nell'elaborazione del parlato e del linguaggio naturale, c'è la speranza che un giorno tu possa chiedere al tuo assistente virtuale quali sono i migliori ingredienti per l'insalata. Al momento, è possibile chiedere al gadget di casa di riprodurre musica o aprire con comando vocale, una funzionalità già presente in molti dispositivi.
Se parli marocchino, algerino, egiziano, sudanese o uno qualsiasi degli altri dialetti della lingua araba, che sono immensamente vari da regione a regione, dove alcuni di essi sono reciprocamente incomprensibili, è una storia diversa. Se la tua lingua madre è l'arabo, il finlandese, il mongolo, il navajo o qualsiasi altra lingua con un alto livello di complessità morfologica, potresti sentirti escluso.
Questi complessi costrutti hanno incuriosito Ahmed Ali a trovare una soluzione. È ingegnere principale presso il gruppo Arabic Language Technologies presso il Qatar Computing Research Institute (QCRI), una parte della Hamad Bin Khalifa University della Qatar Foundation e fondatore di ArabicSpeech, una comunità che esiste a beneficio della scienza del linguaggio arabo e delle tecnologie del parlato.

Sede della Fondazione Qatar
Ali è rimasto affascinato dall'idea di parlare con automobili, elettrodomestici e gadget molti anni fa mentre lavorava in IBM. Possiamo costruire una macchina in grado di comprendere diversi dialetti: un pediatra egiziano per automatizzare una ricetta, un insegnante siriano per aiutare i bambini a ottenere le parti principali della loro lezione o uno chef marocchino che descrive la migliore ricetta del couscous? Egli afferma. Tuttavia, gli algoritmi che alimentano quelle macchine non possono vagliare le circa 30 varietà di arabo, per non parlare di dare loro un senso. Oggi, la maggior parte degli strumenti di riconoscimento vocale funziona solo in inglese e in poche altre lingue.
La pandemia di coronavirus ha ulteriormente alimentato una dipendenza già intensificata dalle tecnologie vocali, dove il modo in cui le tecnologie di elaborazione del linguaggio naturale hanno aiutato le persone a rispettare le linee guida per stare a casa e le misure di distanziamento fisico. Tuttavia, mentre utilizziamo i comandi vocali per aiutare negli acquisti di e-commerce e gestire le nostre famiglie, il futuro riserva ancora più applicazioni.
Milioni di persone in tutto il mondo utilizzano enormi corsi online aperti (MOOC) per il suo accesso aperto e la partecipazione illimitata. Il riconoscimento vocale è una delle funzionalità principali di MOOC, dove gli studenti possono cercare all'interno di aree specifiche nei contenuti parlati dei corsi e abilitare la traduzione tramite i sottotitoli. La tecnologia vocale consente di digitalizzare le lezioni per visualizzare le parole pronunciate come testo nelle aule universitarie.

Ahmed Ali, Università Hamad Bin Kahlifa
Secondo un recente articolo della rivista Speech Technology, si prevede che il mercato del riconoscimento vocale e del riconoscimento vocale raggiungerà i 26,8 miliardi di dollari entro il 2025, poiché milioni di consumatori e aziende in tutto il mondo si affidano ai robot vocali non solo per interagire con i loro elettrodomestici o automobili, ma anche per migliorare il servizio clienti, guidare le innovazioni sanitarie e migliorare l'accessibilità e l'inclusività per le persone con problemi di udito, linguaggio o motori.
In un sondaggio del 2019, Capgemini prevede che entro il 2022 più di due consumatori su tre opteranno per gli assistenti vocali piuttosto che per le visite ai negozi o alle filiali bancarie; una quota che potrebbe giustamente aumentare, data la vita e il commercio casalinghi e fisicamente distanziati che l'epidemia ha imposto al mondo per più di un anno e mezzo.
Tuttavia, questi dispositivi non riescono a fornire vaste aree del globo. Per quei 30 tipi di arabo e milioni di persone, questa è un'opportunità sostanzialmente persa.
Arabo per macchine
I robot vocali di lingua inglese o francese sono tutt'altro che perfetti. Tuttavia, insegnare alle macchine a capire l'arabo è particolarmente complicato per diversi motivi. Queste sono tre sfide comunemente riconosciute:
- Mancanza di segni diacritici. I dialetti arabi sono vernacolari, come principalmente parlati. La maggior parte del testo disponibile è non diacritizzato, il che significa che manca di accenti come l'acuto (´) o il grave (`) che indicano i valori sonori delle lettere. Pertanto, è difficile determinare dove vanno le vocali.
- Mancanza di risorse. C'è una carenza di dati etichettati per i diversi dialetti arabi. Nel complesso, mancano di regole ortografiche standardizzate che determinano come scrivere una lingua, comprese le norme o l'ortografia, la sillabazione, le interruzioni di parola e l'enfasi. Queste risorse sono fondamentali per addestrare modelli informatici e il fatto che siano troppo poche ha ostacolato lo sviluppo del riconoscimento vocale arabo.
- Complessità morfologica. I parlanti arabi si impegnano in molti cambi di codice. Ad esempio, nelle aree colonizzate dai francesi - Nord Africa, Marocco, Algeria e Tunisia - i dialetti includono molte parole francesi prese in prestito. Di conseguenza, esiste un numero elevato di quelle che vengono chiamate parole fuori dal vocabolario, che le tecnologie di riconoscimento vocale non riescono a capire perché queste parole non sono arabe.
Ma il campo si sta muovendo alla velocità della luce, dice Ali. È uno sforzo collaborativo tra molti ricercatori per farlo muovere ancora più velocemente. Il laboratorio di tecnologia della lingua araba di Ali sta guidando il progetto ArabicSpeech per riunire le traduzioni arabe con i dialetti nativi di ciascuna regione. Ad esempio, i dialetti arabi possono essere divisi in quattro dialetti regionali: nordafricano, egiziano, del Golfo e levantino. Tuttavia, dato che i dialetti non rispettano i confini, questo può essere a grana fine come un dialetto per città; per esempio, un madrelingua egiziano può distinguere il proprio dialetto alessandrino dal suo concittadino di Assuan (una distanza di 1.000 chilometri sulla mappa).
Costruire un futuro esperto di tecnologia per tutti
A questo punto, le macchine sono accurate quanto i trascrittori umani, grazie in gran parte ai progressi nelle reti neurali profonde, un sottocampo dell'apprendimento automatico nell'intelligenza artificiale che si basa su algoritmi ispirati a come funziona il cervello umano, biologicamente e funzionalmente. Tuttavia, fino a poco tempo fa, il riconoscimento vocale è stato un po' compromesso. La tecnologia ha una storia di fare affidamento su diversi moduli per la modellazione acustica, la costruzione di lessici di pronuncia e la modellazione del linguaggio; tutti i moduli che devono essere formati separatamente. Più recentemente, i ricercatori hanno addestrato modelli che convertono le caratteristiche acustiche direttamente in trascrizioni di testo, ottimizzando potenzialmente tutte le parti per l'attività finale.
Anche con questi progressi, Ali non è ancora in grado di dare un comando vocale alla maggior parte dei dispositivi nella sua madrelingua araba. Siamo nel 2021 e ancora non riesco a parlare con molte macchine nel mio dialetto, commenta. Voglio dire, ora ho un dispositivo in grado di capire il mio inglese, ma il riconoscimento automatico del parlato arabo multi-dialetto non è ancora avvenuto.
Fare in modo che ciò accada è il fulcro del lavoro di Ali, che è culminato nel primo trasformatore per il riconoscimento vocale arabo e i suoi dialetti; uno che ha raggiunto prestazioni finora ineguagliate. Soprannominata QCRI Advanced Transcription System, la tecnologia è attualmente utilizzata dalle emittenti Al-Jazeera, DW e BBC per trascrivere i contenuti online.
Ci sono alcune ragioni per cui Ali e il suo team hanno avuto successo nella creazione di questi motori vocali in questo momento. In primo luogo, dice, è necessario disporre di risorse in tutti i dialetti. Dobbiamo accumulare le risorse per poi essere in grado di addestrare il modello. I progressi nell'elaborazione del computer significano che l'apprendimento automatico ad alta intensità di calcolo ora avviene su un'unità di elaborazione grafica, che può elaborare e visualizzare rapidamente grafica complessa. Come dice Ali, abbiamo una grande architettura, buoni moduli e abbiamo dati che rappresentano la realtà.
I ricercatori di QCRI e Kanari AI hanno recentemente costruito modelli in grado di raggiungere la parità umana nelle notizie trasmesse in arabo. Il sistema dimostra l'impatto della sottotitolazione dei rapporti giornalieri di Aljazeera. Mentre il tasso di errore umano in inglese (HER) è di circa il 5,6%, la ricerca ha rivelato che l'arabo HER è significativamente più alto e può raggiungere il 10% a causa della complessità morfologica della lingua e della mancanza di regole ortografiche standard nell'arabo dialettale. Grazie ai recenti progressi nell'apprendimento profondo e nell'architettura end-to-end, il motore di riconoscimento vocale dell'arabo riesce a superare le prestazioni dei madrelingua nelle notizie trasmesse.
Mentre il riconoscimento vocale dell'arabo standard moderno sembra funzionare bene, i ricercatori di QCRI e Kanari AI sono impegnati a testare i confini dell'elaborazione dialettale e ottenere grandi risultati. Dal momento che nessuno parla arabo moderno standard a casa, l'attenzione al dialetto è ciò di cui abbiamo bisogno per consentire ai nostri assistenti vocali di capirci.
Questo contenuto è stato scritto da Istituto di ricerca informatica del Qatar , Hamad Bin Khalifa University, membro della Qatar Foundation. Non è stato scritto dalla redazione del MIT Technology Review.