Presto sarà più facile vedere i post di Facebook e Instagram nelle lingue globali meno parlate, ma un esperto suggerisce che per migliorare lo strumento Meta dovrebbe parlare a madrelingua.
Presto sarà più facile vedere i post di Facebook e Instagram nelle 200 lingue meno parlate in tutto il mondo.
Il progetto No Language Left Behind (NLLB) di Meta ha annunciato in un articolo pubblicato questo mese di aver ampliato la propria tecnologia originale.
Il progetto comprende una dozzina di lingue europee a “basse risorse”, come il gaelico scozzese, il galiziano, l’irlandese, il linguista, il bosniaco, l’islandese e il gallese.
Secondo Meta, si tratta di un linguaggio che contiene meno di un milione di frasi di dati utilizzabili.
Gli esperti affermano che per migliorare il servizio, Meta dovrebbe consultare madrelingua e specialisti delle lingue, poiché lo strumento ha ancora bisogno di essere perfezionato.
Come funziona il progetto
Meta addestra la sua intelligenza artificiale (AI) con i dati del repository Opus, una piattaforma open source con una raccolta di testi vocali o scritti autentici per varie lingue in grado di programmare l’apprendimento automatico.
I collaboratori del set di dati sono esperti in elaborazione del linguaggio naturale (NLP): quel sottoinsieme della ricerca sull’intelligenza artificiale che fornisce ai computer la capacità di tradurre e comprendere il linguaggio umano.
Meta ha affermato che nei loro database utilizzano anche una combinazione di dati estratti da fonti come Wikipedia.
Secondo il loro sito web, i dati vengono utilizzati per creare quello che Meta chiama un modello linguistico multilingue (MLM), in cui l’intelligenza artificiale può tradurre “tra qualsiasi coppia… di lingue senza basarsi sui dati in inglese”.
Il team NLLB valuta la qualità delle proprie traduzioni con un benchmark di frasi tradotte da persone create, anch’esso open source. Ciò include un elenco di parole o frasi “tossici” che gli esseri umani possono insegnare al software a filtrare durante la traduzione del testo.
Secondo il loro ultimo articolo, il team NLLB ha migliorato la precisione delle traduzioni del 44% rispetto al primo modello, lanciato nel 2020.
Meta stima che, quando la tecnologia sarà pienamente implementata, ogni giorno ci saranno più di 25 miliardi di traduzioni su Facebook News Feed, Instagram e altre piattaforme.
‘Parlare con la gente’
William Lamb, professore di etnologia e linguistica gaelica all’Università di Edimburgo, è un esperto di gaelico scozzese, una delle lingue a scarse risorse identificate da Meta nel suo progetto NLLB.
Circa il 2,5% della popolazione scozzese, circa 130.000 persone, ha dichiarato al censimento del 2022 di possedere alcune competenze nella lingua celtica del XIII secolo.
Ci sono circa 2.000 persone che parlano gaelico anche nel Canada orientale, dove è una lingua minoritaria. L’UNESCO classifica la lingua come “minacciata” di estinzione a causa del numero limitato di persone che la parlano regolarmente.
Lamb ha osservato che le traduzioni di Meta in gaelico scozzese “non sono ancora molto buone”, a causa dei dati di crowdsourcing che stanno utilizzando, nonostante il loro “cuore sia nel posto giusto”.
“Quello che dovrebbero fare… se vogliono davvero migliorare la traduzione è parlare con le persone, i madrelingua gaelici che ancora vivono e respirano la lingua”, ha detto Lamb.
È più facile a dirsi che a farsi, ha continuato Lamb. La maggior parte dei madrelingua ha circa 70 anni e non usa il computer, e i giovani parlanti “usano abitualmente il gaelico non come lo fanno i loro nonni”.
Una buona alternativa sarebbe che Meta stipulasse un accordo di licenza con la BBC, che si impegna a preservare la lingua creando contenuti online di alta qualità.
“Questo deve essere fatto da specialisti”
Alberto Bugarín-Diz, professore di intelligenza artificiale presso l’Università di Santiago de Compostela in Spagna, ritiene che linguisti come Lamb dovrebbero collaborare con le grandi aziende tecnologiche per perfezionare i set di dati a loro disposizione.
“Questo deve essere fatto da specialisti che possano rivedere i testi, correggerli e aggiornarli con metadati che potremmo usare”, ha detto Bugarin-Diz.
“Le persone provenienti da discipline umanistiche e con un background tecnico come gli ingegneri hanno bisogno di lavorare insieme, è una vera necessità”, ha aggiunto.
Per Meta, ha continuato Bugarin-Diz, utilizzare Wikipedia rappresenta un vantaggio, perché i dati rifletterebbero “quasi ogni aspetto della vita umana”, il che significa che la qualità del linguaggio potrebbe essere molto migliore rispetto al semplice utilizzo di testi più formali.
Tuttavia, Bugarin-Diz suggerisce a Meta e ad altre aziende di intelligenza artificiale di prendersi il tempo necessario per cercare dati di qualità online e poi di esaminare i requisiti legali necessari per utilizzarli, senza violare le leggi sulla proprietà intellettuale.
Lamb, nel frattempo, ha detto che non consiglierà alle persone di usarlo a causa di errori nei dati a meno che Meta non apporti alcune modifiche al loro set di dati.
“Non direi che le loro capacità di traduzione siano al punto tale che gli strumenti siano realmente utili”, ha affermato Lamb.
“Non incoraggerei ancora nessuno come strumento linguistico affidabile; penso che anche loro sarebbero sinceri nel dirlo”.
Bugarín-Diz ha una posizione diversa.
Crede che, se nessuno utilizza le traduzioni Meta, “non sarà disposto” a investire tempo e risorse per migliorarle.
Come altri strumenti di intelligenza artificiale, Bugarin-Diz ritiene che sia questione di conoscere i punti deboli della tecnologia prima di utilizzarla.
Image:Getty Images