D) Anuncios - CONSEJERÍA DE SANIDAD (BOCM-20211228-46)
Convenio –  Convenio de colaboración de 14 de diciembre de 2021, entre la Comunidad de Madrid, a través de la Consejería de Sanidad, y la Universidad Nacional de Educación a Distancia, para la realización del proyecto “INDICAMED: descubrimiento de información y categorización basada en procesamiento del lenguaje para el dominio médico”
18 páginas totales
Página
Zahoribo únicamente muestra información pública que han sido publicada previamente por organismos oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
BOCM

MARTES 28 DE DICIEMBRE DE 2021

B.O.C.M. Núm. 309

identificado mediante su Código de identificación en Tarjeta Sanitaria (CIPA). Una vez seleccionada la población, el investigador perteneciente a la Gerencia de Atención Primaria
será el responsable de solicitar a la Dirección Técnica de Sistemas de Información de Atención Primaria de la Comunidad de Madrid la descarga de datos a partir de la historia clínica electrónica de Atención Primaria (AP-Madrid) y de validar el resultado de la misma.
Para cada persona seleccionada se descargarán los episodios de morbilidad que tenga registrados en AP-Madrid: concretamente para cada uno su código CIAP-2, su correspondiente
texto descriptor y apuntes en texto libre, las fechas de inicio y registro de dicho episodio.
Para cada caso a partir del CIPA se recuperará de la base de datos de Tarjeta Sanitaria
de la Comunidad de Madrid los campos correspondientes a nombre, apellido 1 y 2, fecha
de nacimiento, sexo y DNI/NIE, con la finalidad de identificar posibles duplicados. Si se
identifica un duplicado (misma persona con dos historias en AP-Madrid) se unificará la información descargada en un registro único.
Una vez establecida la base de datos con la información descargada de AP-Madrid, los
investigadores de la DGSP procederán a asignar a cada caso un ID único. La correspondencia entre ese ID y el CIPA de la persona, que será el que sirva para revertir la seudosanonimización cuando se recuperen los resultados del tratamiento de los textos, se guardará en
un fichero separado de la base de datos, y será guardado en un servidor seguro custodiado
por los investigadores de la DGSP.
A continuación, los investigadores de la DGSP procederán a la seudoanonimización
de la base de datos previa a su traslado a los investigadores de la UNED. En la base de datos seudoanonimizada solo figurarán el ID único de caso y los datos correspondientes a los
episodios de morbilidad (código CIAP-2, texto descriptor, apuntes en texto libre, fecha de
inicio del episodio, fecha de registro del episodio).
Esta base final será depurada por los investigadores de la DGSP y de la Gerencia de
Atención Primaria para garantizar que no incluyan datos personales en el texto libre que
puedan llegar a permitir la identificación de la persona, como nombres, números de teléfono, centros de atención, etc. En caso de detectarse esta información, será eliminada de la
base depurada.
La base final depurada y seudoanonimizada será remitida por los investigadores de la
DGSP a los investigadores de UNED para su tratamiento. Aun cuando los identificadores
estarán completamente anonimizados, el uso del análisis de texto será también restrictivo,
en el sentido de ceñirse estrictamente a los objetivos del presente proyecto y las bases de
datos serán destruidas una vez finalizado el mismo.
Los archivos originales están alojados en entorno seguro en el Sistema de Información
de Salud Pública (SISPAL) que cumple todos los requisitos de protección de datos, con accesos autorizados específicamente con identificación y contraseña.
El tratamiento de datos realizado por los investigadores de la UNED será el siguiente:
Extracción de información de los textos de los informes médicos
Se utilizarán técnicas de procesamiento de Lenguaje Natural (PLN) e Inteligencia Artificial para desarrollar modelos capaces de aprender a identificar rasgos que contribuyan a
la identificación de enfermedades:
— Identificación de menciones a entidades médicas: en particular se aplicarán técnicas de detección de entidades médicas, tanto supervisadas, como no supervisadas.
La tarea del reconocimiento de entidades médicas (enfermedades, medicamentos,
síntomas, etc.) consiste en encontrar los límites de las menciones a conceptos médicos específicos. La existencia de sinónimos y ortografías alternativas de una entidad provocan una explosión de vocabulario y reducen la eficiencia de los diccionarios médicos. Las entidades a menudo consisten en largas secuencias de
palabras, lo que hace más difícil detectar los límites con exactitud. Es muy común
referirse a las entidades también mediante abreviaturas, a veces no estándar y no
definidas dentro del texto.
Entre las técnicas no supervisadas se explorarán técnicas basadas en modelos estadísticos y ontologías. Estas técnicas nos permitirán anotar automáticamente en los
textos las menciones a conceptos médicos (enfermedades, malformaciones, síntomas, etc.) relevantes para el problema considerado. Entre las técnicas supervisadas
se explorarán técnicas basadas en redes neuronales de aprendizaje profundo. Estas
redes neuronales se entrenarán para aprender un modelo capaz de identificar entidades en nuevos textos, ajustando los pesos de las conexiones entre neuronas. Para
el entrenamiento se utilizarán informes con las entidades anotadas. Estas anotacio-

BOCM-20211228-46

Pág. 280

BOLETÍN OFICIAL DE LA COMUNIDAD DE MADRID