Neix 'Aina', el projecte per potenciar el català en l'ecosistema digital

Batejat en homenatge a la filòloga menorquina Aina Moll, artífex de la campanya institucional sobre la sensibilització sobre l'ús de la llengua amb la Norma de protagonista, i com un joc de paraules incorporant AI –Intel·ligència Artificial-, el projecte AINA neix amb l'objectiu de generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d'assistents de veu, traductors automàtics o agents conversacionals en català.

És una aposta del Departament de Polítiques Digitals, que hi destinarà, d'entrada 250.000 euros, per a què el Barcelona Supercomputing Center (BSC) comenci a ampliar els corpus de llengua catalana i obtenir, així, els models lingüístics que abastin les diferents variants i registres. El pressupost total del projecte és de 13,5 MEUR provinent del fons NextGenerationEU.

El BSC ja disposa d’un primer corpus textual del català, consistent en 1.770 milions de paraules, reunides en 95 milions de frases. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (planes web, arxius, etc), netejar-los i esborrar duplicitats. La Generalitat de Catalunya ha proveït tota la informació de les seves pàgines web i del DOGC, cosa que ha suposat el 33% de tots els continguts descarregats, i han estat necessàries 2.000 hores de processadors del superordinador MareNostrum per revisar les dades obtingudes, desduplicar-les i eliminar tot allò que no fossin pròpiament oracions del català.

L'impuls del Govern servirà per crear nous corpus per incorporar les diferents variants dialectals del català, diferents registres lingüístics, i arxius de veu i imatge. Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè “aprenguin el català” i generin models de la llengua, models de la parla i models per a la traducció. Aquests models també són molt costosos de fer perquè necessiten gran capacitat de càlcul (el que s’està construint en base al primer corpus textual farà servir 9.000 hores de GPU), i seran les bases sobre les quals es podran desenvolupar aplicacions basades en IA, com assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres.

Salt qualitatiu i quantitatiu del català a la xarxa

Aquest projecte ha de permetre que el català faci un salt qualitatiu i quantitatiu en l'ecosistema digital, un repte per la llengua catalana. I és que les tecnologies de veu i les aplicacions interfícies de veu per a l'accés al món digital són estratègiques per al desenvolupament ple de la llengua en tots els sectors. La interacció entre les persones i la tecnologia ha entrat en una nova fase on cada vegada menys es fa a través de dispositius com el teclat, el ratolí o les pantalles tàctils, per donar pas a una nova forma d’interacció més natural a través de la veu i la parla. I aquest fet atorga especial rellevància a la llengua, que esdevé un dels principals vehicles d’interacció, i el Govern vol fer el possible perquè sigui possible també fer-la en català.

Pere, 11 Dec 2020 - 9:54pm
Una tasca fonamental per la nostra llengua.
L'altra és parlar-lo més, també amb els que no el parlen habitualment. Cal que donem oportunitat a tothom d'aprendre'n.
The content of this field is kept private and will not be shown publicly.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.