L’integrazione e l’analisi dei big data nel settore sanitario rappresentano una significativa opportunità per l’ottimizzazione delle cure ai pazienti. Adottando un approccio metodologico che include la raccolta, la pulizia, la standardizzazione e l’analisi dei dati, è possibile sviluppare modelli prognostici avanzati applicabili a diverse aree della medicina. Il successo di tale impresa risiede nella capacità di gestire i dati in maniera coerente e affidabile, garantendo l’accuratezza e la rilevanza delle informazioni utilizzate nelle decisioni cliniche.
Un esempio di come poter estrarre utili informazioni da ingenti moli di dati eterogenei in ambito sanitario arriva da un progetto intrapreso dal Policlinico di Milano in collaborazione con The Information Lab. Avviato a fronte di un bando compettivo, tale progetto ha riguardato la generazione di modelli prognostici attraverso l’integrazione di dati clinici derivanti sia dalla fase diagnostica sia terapeutica, con un focus specifico sull’oncoematologia. Ce ne ha parlato Massimiliano Pozzi, account manager di The Information Lab che è stato coinvolto direttamente nel progetto.
La prima sfida: rendere i dati omogenei
“Solitamente, la prima sfida che deve affrontare chi opera con i big data è l’integrazione di dati eterogenei provenienti da fonti multiple, dovendo raccogliere e aggregare informazioni sia strutturate sia non strutturate. E così è stato anche per questo progetto” ha spiegato Pozzi.
Ancora oggi è molto frequente che un ospedale sia organizzato in diversi dipartimenti che hanno ciascuno un proprio database di informazioni sui pazienti e che questo database non sia condiviso con le altre strutture. Globalmente, quindi si ha un ricco patrimonio informativo costituito da anamnesi, analisi, diagnostica per immagini, interventi e cure, ma le informazioni acquisite hanno formati differenti (testo, immagini, video o commenti audio) perché sono state raccolte e gestite in modo differente, a seconda delle necessità. Non solo. Operando così, spesso, si causa la ripetizione dei medesimi dati.
“La standardizzazione è cruciale per garantire la coerenza e l’affidabilità” ha puntualizzato Pozzi. “Infatti, oltre a uniformare i termini medici utilizzati, abbiamo dovuto includere la normalizzazione dei formati e delle unità di misura. Successivamente, abbiamo effettuato un’accurata pulizia dei dati per eliminare errori, duplicati e incongruenze. In tal senso, abbiamo impiegato tecniche di elaborazione del linguaggio naturale per interpretare diagnosi scritte a mano ed estrarre informazioni rilevanti”.
I dati devono infatti risultare facilmente accessibili e utilizzabili per gli analytics. Devono perciò essere riorganizzati mediante data warehouse o data lake ben strutturati che consentano analisi avanzate e apprendimento automatico.
“Per creare modelli prognostici in grado di predire l’andamento della malattia e l’efficacia dei trattamenti ci siamo avvalsi di tecniche avanzate di data mining e machine learning” ha specificato l’Account Manager. “Tali modelli dovevano essere rigorosamente validati utilizzando set di dati indipendenti per assicurare l’accuratezza e la possibilità di generalizzare le previsioni”.
10 anni di dati sanitari
Entrando più nel dettaglio del progetto, per l’analisi sono stati considerati gli ultimi 10 anni di dati limitata al settore ematologico del Policlinico di Milano, con una significativa mole di informazioni. Le principali sfide hanno riguardato la raccolta e la qualità dei dati e la garanzia di elevata qualità dei dati come passaggi complessi e rilevanti. La stretta collaborazione con il personale interno del Policlinico è stata cruciale per accedere ai dati assicurando la assoluta pseudoanonimizzazione e sicurezza delle informazioni, lavorando sulla scalabilità orizzontale e verticale della tecnologia per rendere possibile la applicazione ad altri dipartimenti e per migliorare ulteriormente le prestazioni. Oltre al possibile miglioramento delle cure, le soluzioni proposte potranno in futuro essere utilizzate per supportare la gestione operativa delle strutture sanitarie, contribuendo a un’efficiente allocazione delle risorse.
Per essere conforme con le normative inerenti alla privacy, il Policlinico di Milano ha fornito dati pseudoanonimizzati, eliminando informazioni sensibili. “Questo ha anche garantito un alto grado di precisione nella previsione dell’approccio terapeutico – ha precisato Pozzi –. E sebbene il progetto si sia inizialmente concentrato sulle neoplasie ematologiche, i risultati raggiunti permettono di replicare e scalare le metodologie e i modelli sviluppati possono ad altri dipartimenti e condizioni cliniche”.
Il software e l’infrastruttura hardware
Come software orchestratore di dati è stato scelto KNIME “per la sua capacità di catturare dati da diverse fonti, una caratteristica che può rivestire un ruolo di primo piano anche per il nuovo fascicolo sanitario elettronico”. Open source e low code, KNIME può essere efficacemente usato anche da chi non ha competenze di data scientist “grazie alla sua componente grafica intuitiva. Questa peculiarità permette ai medici di diagnosticare e pianificare terapie autonomamente. Per il cruscotto finale è stato invece usato Tableau”.
Iniziato ad aprile del 2023, il progetto ha avuto un percorso in linea con le tempistiche previste dal bando. Ora è nella fase conclusiva di test. La presentazione dei risultati finali avverrà entro il 2025.
Attualmente, il sistema è installato on-premises presso il Policlinico di Milano, garantendo in questo modo la proprietà e la sicurezza dei dati. L’infrastruttura hardware del Policlinico gestisce l’applicazione grazie al supporto IT.
Simili progetti potranno prevedere In futuro soluzioni software-as-a-service, rendendo il sistema più fruibile, compatibilmente con le policy delle strutture sanitarie.
Una soluzione out of the box
“Il progetto costituisce una proof of concept per applicare progetti simili – ha sostenuto Pozzi – anche in altre strutture sanitarie, rappresentando potenzialmente uno strumento utile anche alla gestione terapeutica dei pazienti”.
Forte dell’esperienza acquisita attraverso il progetto con il Policlinico di Milano, Pozzi ha infine fornito un suggerimento per chi, nell’ambito sanitario, volesse implementare una soluzione di gestione dei big data: “È fondamentale valutare lo stato tecnologico interno e garantire l’impegno delle varie parti coinvolte, con particolare attenzione al supporto del personale scientifico. Per il successo del progetto è poi essenziale che si instauri una stretta collaborazione tra il team tecnico e il personale medico”.