top of page
  • Foto del escritorCristina Ferrero Castaño

¿Qué es el data lake sanitario que pide España?

El Plan de Recuperación contempla la creación de un data lake sanitario, una gigantesca infraestructura digital para almacenar datos como los historiales clínicos de todo el país.


Alberto R. Aguiar

Business Insider

7 de Septiembre de 2021


El Gobierno quiere crear un data lake sanitario. Es un concepto del big data: lo que se quiere lanzar es un enorme almacén de datos sanitarios en bruto con el que poder operar, hacer investigaciones, predicciones o detectar tendencias. España quiere contar con la capacidad de hacer "análisis masivos en tiempo real" de la salud de sus ciudadanos.


La propuesta se incluye en el componente 18 del Plan de Recuperación, Transformación y Resiliencia, el documento que articula la llegada de los fondos europeos al país. La iniciativa la impulsan tanto el Ministerio de Sanidad como la Secretaría de Estado de Digitalización y Asuntos Económicos, y se valoraba en 100 millones de euros.


Con este data lake, especialistas e investigadores podrían ser capaz de hacer análisis en tiempo real para identificar y mejorar diagnósticos o tratamientos, analizar tendencias, identificar patrones e incluso prevenir situaciones de riesgo sanitario. Prevenir, o al menos anticipar con más precisión, situaciones tan críticas como una pandemia.


Crear una enorme infraestructura digital conlleva una serie de desafíos. Las competencias sanitarias están transferidas, por lo que de primeras supone un reto coordinar autonomías, hospitales o centros de salud. El Gobierno todavía no ha licitado ni lanzado la convocatoria para poner en marcha este data lake, pero ya cuenta con pretendientes.


Entre las sociedades científicas y asociaciones que apoyan la iniciativa se encuentra la Sociedad Española de Oncología Médica, la de Medicina Interna, la de Patología Digestiva, de Médicos de Atención Primaria, la de Endocrinología y Nutrición, la de Medicina Intensiva, la Plataforma de Organizaciones de Pacientes o la Asociación Española contra el Cáncer.


Cómo funciona un "data lake" sanitario


Contar con un data lake de estas características, con un enorme catálogo de datos sanitarios en bruto, permitiría acelerar muchísimo la investigación en ciencias de la salud. Antes un investigador podía acudir a un hospital a consultar, o física o electrónicamente, el historial clínico de un millar de pacientes. Con el data lake podrá tener acceso a los datos de absolutamente todos ellos.


Ello es posible gracias a que el aprendizaje automático y el procesamiento del lenguaje natural, dos tipos de IA, intervienen para normalizar y estructurar la ingente cantidad de datos que los facultativos vuelcan en los sistemas de historias clínicas de sus pacientes.


Si un traumatólogo pone en Galicia que un paciente sufre gonalgia, otro en Murcia detalla que otro paciente tiene "dolor de rodillas", y un tercero en Andalucía explicita que su paciente se queja de "dolor en una rodilla", la IA podrá resumir esos tres casos al mismo dato, dolor de rodilla, identificándolo con un código en concreto.


Otra ventaja es que de un vistazo se puede contar con toda la información en bruto. Un paciente puede generar información tras su paso por Urgencias, o su paso por quirófano o por un especialista. Con un data lake se podría ver toda la información que ha generado.


Garantías con la privacidad


Por supuesto, el Gobierno lo que plantea es depositar en un gran data lake datos sanitarios excepcionalmente sensibles. Esto requiere de un sinfín de garantías.


Es decir, el propietario y dueño del dato sanitario sigue siendo el ciudadano, mientras que el custodio es el hospital. Hay que trabajar con datos perfectamente anonimizados. Antes de meterlos en sus sistemas, la empresa no sabe a quién corresponden los datos ni de quiénes son las historias clínicas con las que opera.


De hecho, se propone generar dos enormes bases de datos en el data lake. Una base de datos seudonimizada, para que sea efectiva en términos de gestión. Con la base de datos seudonimizada, los custodios (los hospitales, los gestores) podrán identificar a los pacientes para poder garantizarle su atención sanitaria. La otra base de datos será completamente anónima y será a la que podrán tener acceso investigadores de distintos organismos.


Por ejemplo, con la capacidad predictiva del big data, un data lake a nivel nacional habría permitido diagnosticar de forma temprana casos de coronavirus al detectar anomalías con el incremento de casos de neumonías a principios de 2020.


Compromiso político para ser pioneros


La Unión Europea ya trabajaba con el horizonte fijado en un marco europeo de gobernanza del dato, que ayude a que se generen marcos en los que los datos (también los sanitarios) garanticen su interoperabilidad entre países y sistemas.


España tiene la oportunidad de ser pionera gracias a la aplicación de la IA y el big data en conjunción con la digitalización de los hospitales y lo extendidos que están los historiales clínicos electrónicos.


Otra problemática que arroja esta disrupción tiene que ver con la soberanía tecnológica española. La ingente cantidad de datos que generaría un data lake implica que no se puede confiar en infraestructuras convencionales, como servidores.


Por ello confiar en la nube tanto para el almacenamiento como para el procesado de estos datos no es una opción. La cuestión es en qué proveedor confiar. Los grandes players del cloud son empresas extranjeras. Por esa misma razón, el propio Ministerio de Asuntos Económicos anunció en junio la creación de un hub en GAIA-X.


GAIA-X es la iniciativa primero francoalemana y ahora europa para crear una nube federada europea, "con los valores" del Viejo Continente por bandera, y que podría ser la respuesta a estas preguntas. De hecho, ya en junio el Ministerio avanzaba que España desarrollaría la creación de un hub específico en GAIA-X de datos turísticos y otro sanitario.















155 visualizaciones0 comentarios

Entradas recientes

Ver todo
bottom of page