III. Otras disposiciones. MINISTERIO DE LA PRESIDENCIA, JUSTICIA Y RELACIONES CON LAS CORTES. Comunidad de Madrid. Convenio. (BOE-A-2024-16648)
Resolución de 2 de agosto de 2024, de la Subsecretaría, por la que se publica el Convenio entre la Agencia Estatal Consejo Superior de Investigaciones Científicas, M.P., el Instituto Cervantes, la Asociación Española de Terminología, el Barcelona Supercomputing Center, la Universidad Politécnica de Madrid y la Real Academia de Ingeniería, para la realización del Portal de Acceso a Terminologías en España y Servicios de Inteligencia Artificial (TeresIA).
27 páginas totales
Página
Zahoribo únicamente muestra información pública que han sido publicada previamente por organismos oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
BOLETÍN OFICIAL DEL ESTADO
Núm. 193
Sábado 10 de agosto de 2024
Sec. III. Pág. 103299
que se hayan encontrado previamente en recursos existentes a los que se hayan
enlazado los términos.
T.3.4 Evaluación de calidad, robustez, interoperabilidad y escalabilidad de las
soluciones. Instituciones involucradas: BSC-CNS, UPM, CSIC, AETER, IC. Institución
coordinadora: BSC-CNS.
Esta tarea estaría dedicada a la evaluación técnica de los algoritmos de extracción
de terminologías y relaciones entre términos a partir de corpus anotados por experto.
Para ellos se construirá un marco de evaluación de modelos de inteligencia artificial que
permita obtener métricas comunes de evaluación como precisión, exhaustividad y
métrica F1; pero también otras específicas del área de extracción de palabras clave
como P@5K y P@50K.
Paquete de trabajo 4.
Desarrollo de herramientas de conversión, desambiguación
y enlazado de terminologías en TeresIA
T4.1 Herramienta de conversión de terminologías a formatos estándar. Instituciones
involucradas: OEG, BSC, CSIC. Institución coordinadora: UPM OEG.
En esta tarea el objetivo es la creación de una herramienta de conversión de
terminologías con dos objetivos: el primero, la armonización de las terminologías que se
almacenarán y gestionarán en el portal para facilitar el acceso y recuperación de los
datos en PT2; y el segundo, la integración o enlazado con otras terminologías similares
preexistentes. Para ello se implementarán un conjunto de conversores entre los formatos
más comunes de representación de glosarios terminológicos, tesauros, terminologías a
los formatos más ampliamente adoptados por la comunidad de Web de datos
lingüísticos.
T4.2 Herramienta de desambiguación de términos. Instituciones involucradas: BSCCNS, UPM. Institución coordinadora: BSC-CNS.
T4.3 Herramienta de enlazado o integración de terminologías. Instituciones
involucradas: UPM, BSC-CNS. Institución coordinadora: UPM.
El propósito de esta tarea es la definición e implementación de los algoritmos de
enlazado de las terminologías convertidas o creadas en TeresIA con términos definidos
en terminologías o conjuntos de datos terminológicos ya existentes, según los principios
de los datos enlazados (linked data), y su publicación para el consumo por otras
aplicaciones en el contexto de los casos de uso. Esta tarea está intrínsecamente ligada a
cve: BOE-A-2024-16648
Verificable en https://www.boe.es
El objetivo de esta tarea es la implementación de algoritmos de desambiguación de
términos basados en modelos de lenguaje y/o su combinación con otros enfoques
tradicionales. Estos algoritmos son necesarios para identificar el sentido con el que un
término está siendo utilizado (o el concepto que éste representa) en casos de polisemia
u homonimia. Se explorarán distintos escenarios según la disponibilidad de información
semántica y contextual asociada a los términos en cuestión.
Por un lado, se analizarán los casos en los que se tenga información del contexto en
el que aparezca el término utilizado (porque se disponga del corpus de extracción, por
ejemplo), información de la semántica del término (porque se hayan establecido
relaciones semánticas con otros términos), o cualquier otra información lingüística
asociada (categoría gramatical, género, número, definición, etc.). Por otro lado, se
tendrán en cuenta escenarios en los que la información contextual sea escasa o
inexistente, o esté limitada a una lista de términos. Estos algoritmos van a permitir el
posterior enlazado de los datos terminológicos con aquellos términos en terminologías
existentes que representen el mismo concepto.
Núm. 193
Sábado 10 de agosto de 2024
Sec. III. Pág. 103299
que se hayan encontrado previamente en recursos existentes a los que se hayan
enlazado los términos.
T.3.4 Evaluación de calidad, robustez, interoperabilidad y escalabilidad de las
soluciones. Instituciones involucradas: BSC-CNS, UPM, CSIC, AETER, IC. Institución
coordinadora: BSC-CNS.
Esta tarea estaría dedicada a la evaluación técnica de los algoritmos de extracción
de terminologías y relaciones entre términos a partir de corpus anotados por experto.
Para ellos se construirá un marco de evaluación de modelos de inteligencia artificial que
permita obtener métricas comunes de evaluación como precisión, exhaustividad y
métrica F1; pero también otras específicas del área de extracción de palabras clave
como P@5K y P@50K.
Paquete de trabajo 4.
Desarrollo de herramientas de conversión, desambiguación
y enlazado de terminologías en TeresIA
T4.1 Herramienta de conversión de terminologías a formatos estándar. Instituciones
involucradas: OEG, BSC, CSIC. Institución coordinadora: UPM OEG.
En esta tarea el objetivo es la creación de una herramienta de conversión de
terminologías con dos objetivos: el primero, la armonización de las terminologías que se
almacenarán y gestionarán en el portal para facilitar el acceso y recuperación de los
datos en PT2; y el segundo, la integración o enlazado con otras terminologías similares
preexistentes. Para ello se implementarán un conjunto de conversores entre los formatos
más comunes de representación de glosarios terminológicos, tesauros, terminologías a
los formatos más ampliamente adoptados por la comunidad de Web de datos
lingüísticos.
T4.2 Herramienta de desambiguación de términos. Instituciones involucradas: BSCCNS, UPM. Institución coordinadora: BSC-CNS.
T4.3 Herramienta de enlazado o integración de terminologías. Instituciones
involucradas: UPM, BSC-CNS. Institución coordinadora: UPM.
El propósito de esta tarea es la definición e implementación de los algoritmos de
enlazado de las terminologías convertidas o creadas en TeresIA con términos definidos
en terminologías o conjuntos de datos terminológicos ya existentes, según los principios
de los datos enlazados (linked data), y su publicación para el consumo por otras
aplicaciones en el contexto de los casos de uso. Esta tarea está intrínsecamente ligada a
cve: BOE-A-2024-16648
Verificable en https://www.boe.es
El objetivo de esta tarea es la implementación de algoritmos de desambiguación de
términos basados en modelos de lenguaje y/o su combinación con otros enfoques
tradicionales. Estos algoritmos son necesarios para identificar el sentido con el que un
término está siendo utilizado (o el concepto que éste representa) en casos de polisemia
u homonimia. Se explorarán distintos escenarios según la disponibilidad de información
semántica y contextual asociada a los términos en cuestión.
Por un lado, se analizarán los casos en los que se tenga información del contexto en
el que aparezca el término utilizado (porque se disponga del corpus de extracción, por
ejemplo), información de la semántica del término (porque se hayan establecido
relaciones semánticas con otros términos), o cualquier otra información lingüística
asociada (categoría gramatical, género, número, definición, etc.). Por otro lado, se
tendrán en cuenta escenarios en los que la información contextual sea escasa o
inexistente, o esté limitada a una lista de términos. Estos algoritmos van a permitir el
posterior enlazado de los datos terminológicos con aquellos términos en terminologías
existentes que representen el mismo concepto.