III. Otras disposiciones. MINISTERIO DE LA PRESIDENCIA, JUSTICIA Y RELACIONES CON LAS CORTES. Comunidad de Madrid. Convenio. (BOE-A-2024-16648)
Resolución de 2 de agosto de 2024, de la Subsecretaría, por la que se publica el Convenio entre la Agencia Estatal Consejo Superior de Investigaciones Científicas, M.P., el Instituto Cervantes, la Asociación Española de Terminología, el Barcelona Supercomputing Center, la Universidad Politécnica de Madrid y la Real Academia de Ingeniería, para la realización del Portal de Acceso a Terminologías en España y Servicios de Inteligencia Artificial (TeresIA).
27 páginas totales
Página
Zahoribo únicamente muestra información pública que han sido publicada previamente por organismos oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
BOLETÍN OFICIAL DEL ESTADO
Núm. 193
Sábado 10 de agosto de 2024
Sec. III. Pág. 103298
permita modelar principales características de los datos de forma homogénea, de forma
que la información pueda ser consultada/consumida por distintos servicios y usuarios,
preservando los datos en su forma original.
T2.3 Preparación del sistema de acceso a contenidos y corpus. Instituciones
involucradas: CSIC, BSC, UPM, IC. Institución coordinadora: CSIC.
Junto con el resto de los socios, se analizarán los requerimientos del proyecto a nivel
de datos para incorporarlos en un repositorio masivo y se caracterizarán para facilitar su
posterior inventariado. Una vez definidos se implementarán herramientas de ingesta,
preparación e inclusión de datos procedentes de los diferentes socios del proyecto. Los
conjuntos de datos se almacenarán en la infraestructura ofrecida por el CSIC, aunque se
tendrá en consideración en el desarrollo su posible migración a otro tipo de
infraestructura común.
Paquete de trabajo 3.
Desarrollo de herramientas y componentes avanzados de IA
para extracción de términos y relaciones
T3.1 - Generación de conjuntos de datos de entrenamiento y evaluación de sistemas
de Inteligencia Artificial. Instituciones involucradas: BSC-CNS, AETER, IC, CSIC, UPM.
Institución coordinadora: BSC-CNS.
Para el desarrollo de sistemas automáticos de extracción de términos se requieren
textos anotados con ejemplos de calidad que permitan a los algoritmos aprender de
forma adecuada. Para ello se seleccionarán manualmente un mínimo de 500 párrafos de
artículos de literatura científica y/o administrativa en castellano. Anotadores
experimentados extraerán las palabras claves de estos párrafos siguiendo unas guías de
anotación que se diseñarán y escribirán a partir de trabajos científicos previos como
SemEval 2017 e Inspec.
T3.2 Implementación de sistemas de detección de términos relevantes en un
documento científico. Instituciones involucradas: BSC-CNS, UPM. Institución
coordinadora: BSC-CNS.
Los datos generados como parte de T3.1 se usarán para la adaptación, mejora y
evaluación de arquitecturas de detección de términos relevantes en textos basadas en
redes neuronales profundas. Estos sistemas estarán basados en el estado del arte
descrito en la literatura, incluyendo herramientas que aprovechen los modelos de
lenguaje, como hace, por ejemplo, la herramienta KeyBERT utilizando arquitectura de
entrenamiento que utilicen la semántica contextual similares a AttentionRank y
UCPhrase, aplicando estrategias para extracción de términos pertenecientes a dominios
concretos. Estas técnicas más avanzadas se evaluarán respecto a las técnicas de
aprendizaje automática tradicional para ver el impacto de los modelos de lenguaje en
español en la extracción terminológica.
El objetivo de esta tarea es el diseño e implementación de algoritmos de extracción
de relaciones entre términos inferidas a partir del propio corpus con el fin de enriquecer
semánticamente el recurso. Las relaciones semánticas que se considerarán en un
principio serán las propias de las taxonomías y tesauros, a saber, las jerárquicas
(también conocidas como genérico-específicas) y las de relación entre términos. Se
valorará la inclusión de relaciones específicas de dominio (ad-hoc) para los recursos
generados en el marco de los casos de uso (PT7). En esta tarea también se reutilizarán
trabajos previos tales como TermitUp. Las relaciones extraídas se compararán con las
cve: BOE-A-2024-16648
Verificable en https://www.boe.es
T3.3 Extracción de relaciones entre términos a partir de corpus. Instituciones
involucradas: UPM, BSC-CNS. Institución coordinadora: UPM.
Núm. 193
Sábado 10 de agosto de 2024
Sec. III. Pág. 103298
permita modelar principales características de los datos de forma homogénea, de forma
que la información pueda ser consultada/consumida por distintos servicios y usuarios,
preservando los datos en su forma original.
T2.3 Preparación del sistema de acceso a contenidos y corpus. Instituciones
involucradas: CSIC, BSC, UPM, IC. Institución coordinadora: CSIC.
Junto con el resto de los socios, se analizarán los requerimientos del proyecto a nivel
de datos para incorporarlos en un repositorio masivo y se caracterizarán para facilitar su
posterior inventariado. Una vez definidos se implementarán herramientas de ingesta,
preparación e inclusión de datos procedentes de los diferentes socios del proyecto. Los
conjuntos de datos se almacenarán en la infraestructura ofrecida por el CSIC, aunque se
tendrá en consideración en el desarrollo su posible migración a otro tipo de
infraestructura común.
Paquete de trabajo 3.
Desarrollo de herramientas y componentes avanzados de IA
para extracción de términos y relaciones
T3.1 - Generación de conjuntos de datos de entrenamiento y evaluación de sistemas
de Inteligencia Artificial. Instituciones involucradas: BSC-CNS, AETER, IC, CSIC, UPM.
Institución coordinadora: BSC-CNS.
Para el desarrollo de sistemas automáticos de extracción de términos se requieren
textos anotados con ejemplos de calidad que permitan a los algoritmos aprender de
forma adecuada. Para ello se seleccionarán manualmente un mínimo de 500 párrafos de
artículos de literatura científica y/o administrativa en castellano. Anotadores
experimentados extraerán las palabras claves de estos párrafos siguiendo unas guías de
anotación que se diseñarán y escribirán a partir de trabajos científicos previos como
SemEval 2017 e Inspec.
T3.2 Implementación de sistemas de detección de términos relevantes en un
documento científico. Instituciones involucradas: BSC-CNS, UPM. Institución
coordinadora: BSC-CNS.
Los datos generados como parte de T3.1 se usarán para la adaptación, mejora y
evaluación de arquitecturas de detección de términos relevantes en textos basadas en
redes neuronales profundas. Estos sistemas estarán basados en el estado del arte
descrito en la literatura, incluyendo herramientas que aprovechen los modelos de
lenguaje, como hace, por ejemplo, la herramienta KeyBERT utilizando arquitectura de
entrenamiento que utilicen la semántica contextual similares a AttentionRank y
UCPhrase, aplicando estrategias para extracción de términos pertenecientes a dominios
concretos. Estas técnicas más avanzadas se evaluarán respecto a las técnicas de
aprendizaje automática tradicional para ver el impacto de los modelos de lenguaje en
español en la extracción terminológica.
El objetivo de esta tarea es el diseño e implementación de algoritmos de extracción
de relaciones entre términos inferidas a partir del propio corpus con el fin de enriquecer
semánticamente el recurso. Las relaciones semánticas que se considerarán en un
principio serán las propias de las taxonomías y tesauros, a saber, las jerárquicas
(también conocidas como genérico-específicas) y las de relación entre términos. Se
valorará la inclusión de relaciones específicas de dominio (ad-hoc) para los recursos
generados en el marco de los casos de uso (PT7). En esta tarea también se reutilizarán
trabajos previos tales como TermitUp. Las relaciones extraídas se compararán con las
cve: BOE-A-2024-16648
Verificable en https://www.boe.es
T3.3 Extracción de relaciones entre términos a partir de corpus. Instituciones
involucradas: UPM, BSC-CNS. Institución coordinadora: UPM.