I. Disposiciones generales. MINISTERIO DE ASUNTOS ECONÓMICOS Y TRANSFORMACIÓN DIGITAL. Subvenciones. (BOE-A-2022-18816)
Real Decreto 958/2022, de 15 de noviembre, por el que se regula la concesión directa de subvenciones a varios centros de carácter científico para impulsar las tecnologías del lenguaje, en el marco del PERTE Nueva Economía de la Lengua, del Plan de Recuperación, Transformación y Resiliencia.
25 páginas totales
Página
BOLETÍN OFICIAL DEL ESTADO
Miércoles 16 de noviembre de 2022

Sec. I. Pág. 156069

– Generación de datos anotados de calidad que permitan entrenar y evaluar los
modelos. Especialmente en los corpus de texto, voz, monolingües, multilingües y
multimodales.
– Identificación de casos de uso de alto impacto con la participación de la industria
fomentando la transferencia tecnológica.
– Entrenar modelos de lenguaje en diferentes arquitecturas y tamaños, de voz, texto
y multimodales, para el análisis y la generación, monolingües y multilingües, así como
modelos de traducción automática basados en los anteriores. Evaluación de los modelos
en distintas tareas. Generación de modelos de lenguaje.
3.

Proyecto AINA

AINA tiene como objetivo prioritario garantizar que los datos generados en el
proyecto formen parte de las principales iniciativas multilingües nacionales e
internacionales. El proyecto busca desarrollar una infraestructura lingüística que permita:
– El desarrollo de servicios lingüísticos básicos y transversales que sirvan como
baselines y/o módulos básicos sobre los que desarrollar aplicaciones complejas.
– La compilación y preparación de datos masivos en todas las modalidades (texto,
voz e imagen) y de calidad para entrenar modelos genéricos de lengua y modelos para
tareas específicas, incluyendo datos anotados y datos sintéticos.
– El entrenamiento de modelos computacionales de la lengua, generales y
adaptados a dominio y/o tarea, listos para servir de base para crear nuevas aplicaciones.
Incluye también los modelos de reconocimiento y síntesis del habla para el catalán, que
puedan ser incorporados a los asistentes de voz más comunes del mercado.
– El entrenamiento de motores de traducción automática entre el catalán y las
principales lenguas mundiales: lenguas del entorno (incluyendo las cooficiales
españolas), lenguas de la Unión Europea, lenguas de negocio (chino, ruso, etc.) y
lenguas de la inmigración (árabe, urdu, etc.).
– El desarrollo de casos de uso de alto impacto con la incorporación de las
empresas que ejerzan de proyecto tractor.
Actividades a financiar con este real decreto por un importe de 2.000.000 de euros:
– Aumento de la cantidad y calidad de los corpus actuales, garantizando la
heterogeneidad y representatividad de los mismos, especialmente en los corpus de voz.
– Generación de recursos y modelos multilingües, explorando y aprovechando las
capacidades de transfer learning entre lenguas tanto en modelos textuales como en
modelos de voz.
– Generará datos anotados de calidad que permitan entrenar y evaluar los modelos,
prestando especial atención en los contextos multilingües y tareas de alto impacto y alta
complejidad.
– Identificación y ejecución de casos de uso de alto impacto con la participación de
la industria fomentando la transferencia tecnológica.
4.

Proyecto NÓS

El proyecto NÓS pretende recopilar una amplia variedad de recursos en gallego de
alta calidad que se publicarán en formato digital bajo licencias libres y se desarrollarán
herramientas de código abierto que podrán ser utilizadas, de forma gratuita, por
instituciones y empresas.
El proyecto está diseñado en 3 fases: La nuclear, la fase de demostradores y los
casos de uso, esta última concebida como un espacio abierto a la innovación en torno a
la lengua gallega. Hasta el momento el proyecto ha logrado:
– Compilar corpus paralelos gallego-español y gallego-inglés para el entrenamiento
de modelos neuronales integrables en motores de traducción.

cve: BOE-A-2022-18816
Verificable en https://www.boe.es

Núm. 275