L'AINA necessita veus

El projecte AINA busca milions de veus perquè la tecnologia entengui i parli el català sota el lema “La nostra llengua és la teva veu”. La campanya de captació de veus per generar el primer corpus de veu del català s’ha llançat aquest dimarts pel Departament de la Vicepresidència i de Polítiques Digitals i Territori en col·laboració amb el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS).

Per evitar l’extinció digital de la llengua i perquè la ciutadania pugui relacionar-se amb les màquines en català, el projecte AINA està construint els corpus i els models de la llengua catalana de manera que qualsevol empresa o organització pugui utilitzar-los per desenvolupar les seves solucions o serveis específics ja siguin traductors, assistents personals, sintetitzadors de veu o classificadors de textos.

La participació ciutadana a la campanya de recollida de veus “La nostra llengua és la teva veu” es farà a través de la iniciativa de Common Voice de Mozilla pel català, una plataforma on tothom que ho vulgui podrà llegir i enregistrar un nombre il·limitat de frases, agrupades de 5 en 5 però sense límit, per ajudar les màquines a aprendre com parlem les persones.

Tot i que aquesta col·laboració es pot fer de manera totalment anònima i sense cap registre previ, conèixer els paràmetres de gènere, edat i variant dialectal de la persona "donant" de veu facilita molt la feina de classificar les dades de veu obtingudes i, alhora, permet saber si s'està contemplant tota la diversitat lingüística del català. Per això, la campanya anima la ciutadania a registrar-se i crear un perfil a la plataforma per avançar més ràpidament en els objectius del projecte AINA. 

Objectius i pressupost de l'AINA per al 2022

La creació de la primera versió del corpus de veu del català és una de les principals fites del projecte AINA per aquest 2022. Aquest corpus es nodrirà dels continguts obtinguts a través de la plataforma de Common Voice de Mozilla, però també de l'aportació del repositori documental de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o el Consell de l'Audiovisual de Catalunya (CAC), entre d'altres.

En paral·lel, el projecte es marca també com a objectiu d'aquest any la creació de la segona versió del corpus de text del català. A dia d'avui, el projecte disposa d'un primer corpus textual, consistent en 1.770 milions de paraules reunides en 95 milions de frases, que s'ha obtingut a base de descarregar textos de diferents fonts digitals en català, netejar-los i esborrar duplicitats. Ara, es continuarà treballant en aquest corpus de text per generar-ne una segona versió millorada i enriquida que reculli tots els matisos de la llengua escrita, ja siguin variants dialectals o registres lingüístics, com ara el col·loquial, el literari o l'administratiu.

Per fer possible aquest full de ruta, el Departament de la Vicepresidència i de Polítiques Digitals i Territori destinarà aquest any 3 MEUR del seu pressupost al projecte AINA mitjançant una subvenció directa al BSC, que serà l'encarregat d'executar-lo. L’aportació d’enguany multiplica per 12 el pressupost que va destinar la Generalitat al projecte el 2021.

El contingut d'aquest camp es manté privat i no es mostrarà públicament.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.