D) Anuncios - CONSEJERÍA DE SANIDAD (BOCM-20211228-46)
Convenio – Convenio de colaboración de 14 de diciembre de 2021, entre la Comunidad de Madrid, a través de la Consejería de Sanidad, y la Universidad Nacional de Educación a Distancia, para la realización del proyecto “INDICAMED: descubrimiento de información y categorización basada en procesamiento del lenguaje para el dominio médico”
18 páginas totales
Página
Zahoribo únicamente muestra información pública que han sido publicada previamente por organismos oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
BOCM
B.O.C.M. Núm. 309
BOLETÍN OFICIAL DE LA COMUNIDAD DE MADRID
MARTES 28 DE DICIEMBRE DE 2021
Pág. 281
nes se obtendrán en una primera aproximación con técnicas no supervisadas y después serán revisadas manualmente por los miembros del equipo.
— Detección de negación y especulación: para interpretar adecuadamente el significado del texto, aparte de las entidades y las relaciones, es muy importante evaluar
si los hechos descritos se declaran, se hipotetizan o se niegan. En el ámbito médico, esto es especialmente relevante, ya que los informes médicos pueden descartar algunos diagnósticos, declarar explícitamente la ausencia de ciertos síntomas,
o informar de diagnósticos posibles, aunque no confirmados. Así pues, para una
adecuada extracción de la información, es de suma importancia establecer el grado de certeza (verdadero, posible, falso) de cada entidad mencionada en el texto.
La detección de negación se llevará a cabo con una combinación de métodos basados en reglas, que identifican las partículas de negación o “disparadores” (ningún, ausencia de, sin, etc.) y el ámbito al que afectan. Así mismo se entrenarán
modelos supervisados, como los basados en redes neuronales, que a partir de la secuencia de palabras recibida, sean capaces de detectar las negaciones y su ámbito. Las anotaciones de los modelos no supervisados servirán de base para entrenar
los supervisados.
Modelos de predicción
La información identificada nos permitirá desarrollar modelos capaces de aprender a
partir del análisis de unos informes a hacer predicciones para otros informes nuevos. En
particular se utilizarán técnicas de aprendizaje automático, tanto clásicas, como basadas en
redes neuronales.
Tradicionalmente el diagnóstico se basa en el conocimiento y la experiencia de un especialista, quien compara el cuadro clínico del paciente con el de pacientes anteriores buscando patrones específicos de una enfermedad. En la actualidad las técnicas de Inteligencia Artificial pueden ser utilizadas para apoyar al especialista en su toma de decisiones
incrementando la fiabilidad de sus diagnósticos. En la presente investigación se hará un estudio de las diferentes familias de algoritmos de clasificación (SVM, árboles de decisión,
redes neuronales, etc.) para seleccionar los más adecuados para esta tarea. Cada clasificador será configurado con parámetros estándar y puestos a prueba gracias a un conjunto de
informes médicos previamente anotados manualmente. Los clasificadores serán evaluados
mediante un muestreo estratificado y validaciones cruzadas de 10 pliegues.
Se explorarán también reglas de asociación, una de las principales formas de representarlas pautas estructurales que subyacen a los datos en bruto y que representan las dependencias entre los conjuntos de observaciones contenidas en los datos. Las asociaciones establecidas pueden ser muy útiles en la identificación de relaciones entre ER y malformaciones o
con otras enfermedades.
La capacidad predictiva del sistema será evaluada usando las medidas de precisión
(porcentaje de predicciones que coinciden con los datos de referencia), cobertura (porcentaje de los datos de referencia que han sido predichos correctamente), Medida-F (media armónica entre las dos medidas anteriores) y exactitud (accuracy). Los informes médicos se
dividirán en conjuntos de entrenamiento y de prueba para realizar la evaluación. Los parámetros de los modelos se ajustarán sobre los datos de entrenamiento.
Tras el tratamiento de los datos por parte de los investigadores de la UNED, se devolverá a los investigadores de la DGSP la base datos con las entidades médicas que se haya
podido identificar mediante las técnicas de PLN mencionadas previamente, asignadas a los
identificadores anonimizados.
Los investigadores de la DGSP podrán deshacer la seudoanonimización para identificar a las personas y recuperar los datos nominales (nombre, apellidos, fecha de nacimiento,
sexo) y códigos de identificación (CIPA, DNI) que permitan el correspondiente cruce con
SIERMA, base en la que los casos de ER figuran con datos nominales y con códigos de identificación (CIPA, DNI/NIE) y con los diagnósticos de ER detectada. El cruce con SIERMA
permitirá verificar si el caso figura en el Registro de ER, si no figura, o si figura la persona
pero no hay coincidencia entre las entidades médicas identificadas en ambas fuentes. Cuando se den estas dos últimas circunstancias, los investigadores de la DGSP valoraran la necesidad de revisar los casos para su validación, mediante el acceso a las historias clínicas electrónicas de los pacientes a través de Horus, estableciendo la selección y priorización que
consideren oportunas en función del volumen de casos y la casuística detectadas.
BOCM-20211228-46
Medidas de evaluación
B.O.C.M. Núm. 309
BOLETÍN OFICIAL DE LA COMUNIDAD DE MADRID
MARTES 28 DE DICIEMBRE DE 2021
Pág. 281
nes se obtendrán en una primera aproximación con técnicas no supervisadas y después serán revisadas manualmente por los miembros del equipo.
— Detección de negación y especulación: para interpretar adecuadamente el significado del texto, aparte de las entidades y las relaciones, es muy importante evaluar
si los hechos descritos se declaran, se hipotetizan o se niegan. En el ámbito médico, esto es especialmente relevante, ya que los informes médicos pueden descartar algunos diagnósticos, declarar explícitamente la ausencia de ciertos síntomas,
o informar de diagnósticos posibles, aunque no confirmados. Así pues, para una
adecuada extracción de la información, es de suma importancia establecer el grado de certeza (verdadero, posible, falso) de cada entidad mencionada en el texto.
La detección de negación se llevará a cabo con una combinación de métodos basados en reglas, que identifican las partículas de negación o “disparadores” (ningún, ausencia de, sin, etc.) y el ámbito al que afectan. Así mismo se entrenarán
modelos supervisados, como los basados en redes neuronales, que a partir de la secuencia de palabras recibida, sean capaces de detectar las negaciones y su ámbito. Las anotaciones de los modelos no supervisados servirán de base para entrenar
los supervisados.
Modelos de predicción
La información identificada nos permitirá desarrollar modelos capaces de aprender a
partir del análisis de unos informes a hacer predicciones para otros informes nuevos. En
particular se utilizarán técnicas de aprendizaje automático, tanto clásicas, como basadas en
redes neuronales.
Tradicionalmente el diagnóstico se basa en el conocimiento y la experiencia de un especialista, quien compara el cuadro clínico del paciente con el de pacientes anteriores buscando patrones específicos de una enfermedad. En la actualidad las técnicas de Inteligencia Artificial pueden ser utilizadas para apoyar al especialista en su toma de decisiones
incrementando la fiabilidad de sus diagnósticos. En la presente investigación se hará un estudio de las diferentes familias de algoritmos de clasificación (SVM, árboles de decisión,
redes neuronales, etc.) para seleccionar los más adecuados para esta tarea. Cada clasificador será configurado con parámetros estándar y puestos a prueba gracias a un conjunto de
informes médicos previamente anotados manualmente. Los clasificadores serán evaluados
mediante un muestreo estratificado y validaciones cruzadas de 10 pliegues.
Se explorarán también reglas de asociación, una de las principales formas de representarlas pautas estructurales que subyacen a los datos en bruto y que representan las dependencias entre los conjuntos de observaciones contenidas en los datos. Las asociaciones establecidas pueden ser muy útiles en la identificación de relaciones entre ER y malformaciones o
con otras enfermedades.
La capacidad predictiva del sistema será evaluada usando las medidas de precisión
(porcentaje de predicciones que coinciden con los datos de referencia), cobertura (porcentaje de los datos de referencia que han sido predichos correctamente), Medida-F (media armónica entre las dos medidas anteriores) y exactitud (accuracy). Los informes médicos se
dividirán en conjuntos de entrenamiento y de prueba para realizar la evaluación. Los parámetros de los modelos se ajustarán sobre los datos de entrenamiento.
Tras el tratamiento de los datos por parte de los investigadores de la UNED, se devolverá a los investigadores de la DGSP la base datos con las entidades médicas que se haya
podido identificar mediante las técnicas de PLN mencionadas previamente, asignadas a los
identificadores anonimizados.
Los investigadores de la DGSP podrán deshacer la seudoanonimización para identificar a las personas y recuperar los datos nominales (nombre, apellidos, fecha de nacimiento,
sexo) y códigos de identificación (CIPA, DNI) que permitan el correspondiente cruce con
SIERMA, base en la que los casos de ER figuran con datos nominales y con códigos de identificación (CIPA, DNI/NIE) y con los diagnósticos de ER detectada. El cruce con SIERMA
permitirá verificar si el caso figura en el Registro de ER, si no figura, o si figura la persona
pero no hay coincidencia entre las entidades médicas identificadas en ambas fuentes. Cuando se den estas dos últimas circunstancias, los investigadores de la DGSP valoraran la necesidad de revisar los casos para su validación, mediante el acceso a las historias clínicas electrónicas de los pacientes a través de Horus, estableciendo la selección y priorización que
consideren oportunas en función del volumen de casos y la casuística detectadas.
BOCM-20211228-46
Medidas de evaluación