I. Disposiciones generales. MINISTERIO DE ASUNTOS ECONÓMICOS Y TRANSFORMACIÓN DIGITAL. Subvenciones. (BOE-A-2022-18816)
Real Decreto 958/2022, de 15 de noviembre, por el que se regula la concesión directa de subvenciones a varios centros de carácter científico para impulsar las tecnologías del lenguaje, en el marco del PERTE Nueva Economía de la Lengua, del Plan de Recuperación, Transformación y Resiliencia.
25 páginas totales
Página
BOLETÍN OFICIAL DEL ESTADO
Miércoles 16 de noviembre de 2022

Sec. I. Pág. 156070

– Generar un corpus textual del gallego extraído de la web.
– Entrenar modelos semánticos monolingües en gallego, de carácter general, con la
arquitectura neuronal de Transformers (BERT).
– Compilar corpus texto-voz alineados para el desarrollo de un prototipo de pruebas
de reconocimiento de voz del gallego.
– Crear un corpus de voz de alta calidad para el desarrollo de un sintetizador de voz.
Actividad a financiar dentro de este real decreto por un importe de 2.000.000 euros:
– Aumentar la cantidad y calidad de los corpus actuales, garantizando la
heterogeneidad y representatividad de los mismos.
– Generación de datos anotados de calidad que permitan entrenar y evaluar los
modelos. Especialmente en los corpus de texto, voz, monolingües, multilingües y
multimodales.
– Identificación de casos de uso de alto impacto con la participación de la industria
fomentando la transferencia tecnológica.
5.

Proyecto VIVES

VIVES pretende crear corpus masivos (en formato texto y voz) del valenciano. Para
ello se prevé:
– Impulsar campañas de adquisición de datos de voz y textos a partir de la
participación ciudadana y de los recursos existentes en la administración pública, Les
Corts Valencianes, y la radio y televisión valenciana (A Punt). Estudio de las
implicaciones de privacidad para las personas y garantía de preservación de la
privacidad de estas en la captura y análisis de los datos.
– Generar modelos del lenguaje para cada una de las variedades del valenciano, y
establecer correlación y comparación entre ellos. Además, generar modelos del lenguaje
especializados en un ámbito concreto (turismo y audiovisual) o en una tarea concreta
(por ejemplo, resúmenes y simplificación de textos).
– Definir estrategias de calidad de los datos.
– Estudiar la interacción entre los sistemas que utilizan los modelos del lenguaje y
sus usuarios, con un foco especial en las consideraciones éticas de dicha interacción.
– Fomentar la inclusión digital en la administración pública, proporcionando
herramientas digitales para personas con discapacidad y diversidad cognitiva, para
conseguir Lenguas accesibles.
Actividades a financiar con este real decreto por un importe de 500.000 euros:
– Creación de corpus masivos en formato texto y voz del valenciano.
– Campaña de adquisición de recursos de voz, y transcripción a partir de los datos
de les Corts Valencianes y la radio y televisión pública (A Punt).
– Generación de modelos de lenguaje localizados especialmente de voz y
generación de textos a partir de los modelos del lenguaje generales creados en el
proyecto AINA y de los corpus específicos del valenciano.
– Generación de modelos de lenguaje específicos para las diferentes variantes del
valenciano especialmente de voz.
– Validación de corpus libres de sesgos y justos.
– Estudio de la interacción entre los modelos de lenguaje y las personas.

cve: BOE-A-2022-18816
Verificable en https://www.boe.es

Núm. 275