Im Use Case 2 des MIRACUM-Konsortiums „From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen“ wurden valide Vorhersagemodelle mithilfe von Techniken des maschinellen Lernens, insbesondere Deep Learning, entwickelt. Dabei diente der schrittweise inhaltliche Ausbau der Datenintegrationszentren an den MIRACUM-Standorten als solide Datenbasis, um Patientenkohorten anhand klinischer Parameter, Biomarker und molekularer/genomischer Untersuchungen in Subgruppen zu stratifizieren. Das Konsortium strebte außerdem an, entstehende Vorhersagemodelle mittels SmartApps schnellstmöglich in den Klinikalltag zu integrieren, um Ärztinnen und Ärzte in ihren diagnostischen und therapeutischen Entscheidungen zu unterstützen. Der klinische Fokus lag hierbei zunächst auf medizinischen Fragestellungen aus den Bereichen Asthma/COPD und Hirntumore.

„Wir wissen, dass das One-size-fits-all-Modell in der Therapie oft nicht funktioniert. Die großen Fallzahlen helfen uns, klinisch relevante Muster besser identifizieren und bewerten zu können.“

Prof. Dr. Harald Renz
Universitätsklinikum Gießen-Marburg, Standort Marburg

Die Daten in MIRACUM wurden als besonders schützenswert angesehen. Eine zentrale Sammlung über alle Standorte hinweg wurde als zu großes Risiko betrachtet. Daher verfolgte man das Ziel, die Analyse zu den Daten zu bringen und nicht umgekehrt. Nur aggregierte und anonyme Daten sollten die Standorte verlassen. Dieses Prinzip wurde mit der Software DataSHIELD umgesetzt, die an der Universität Newcastle entwickelt wurde und unter einer Open-Source-Lizenz frei nutzbar ist. DataSHIELD bot verschiedene statistische Verfahren an, von einfachen Kennzahlen bis zu komplexen Regressionsmodellen. Zudem ermöglichte die Software die Entwicklung neuer Methoden der künstlichen Intelligenz. Das MIRACUM-Konsortium arbeitete eng mit dem Entwicklerteam und der DataSHIELD-Community zusammen.

Zusätzlich zur Verwendung anonymer aggregierter Daten wurde die Nutzung synthetischer Daten erforscht, um den Datenschutz zu gewährleisten. Synthetische Daten, die keine realen Patienteninformationen enthalten, sondern statistische Beziehungen realer Daten nachbilden, wurden pro Standort erstellt. Diese Daten konnten gemeinsam genutzt und für verschiedene Analysekonzepte eingesetzt werden. Die Erzeugung synthetischer Daten erfolgte durch maschinelles Lernen, insbesondere mittels generativer Modelle und Deep Learning-Techniken. Die Generierung virtueller Patientendaten wurde verteilt über verschiedene MIRACUM-Standorte durchgeführt, ebenfalls unter Nutzung der DataSHIELD-Infrastruktur. So konnten etablierte Analyseverfahren und die Entwicklung neuer datenschutzkonformer Methoden parallel vorangetrieben werden.

Erreichte Ergebnisse im „Use Case 2 – From Data to Knowledge“:

  1. Allgemeine Erkenntnisse: 
    • Standortübergreifende Zusammenarbeit ermöglicht Nutzung klinischer Routine- und hochdimensionaler Patientendaten.
    • Datenschutzkonforme Infrastruktur und neue Technologien fördern die Verlässlichkeit und Verallgemeinerbarkeit von Routinedaten.
    • Entwicklung valider Vorhersagemodelle: Erfolgreicher Einsatz von maschinellem Lernen und Deep Learning zur Stratifizierung von Patientenkohorten.
    • Integration in den Klinikalltag: SmartApps unterstützten Ärztinnen und Ärzte bei Diagnostik und Therapie, mit Fokus auf Asthma/COPD und Hirntumoren.
    • Einsatz von DataSHIELD: Erfolgreiche Nutzung der Software für statistische Analysen und die Entwicklung neuer KI-Methoden in Zusammenarbeit mit der Community.
  2. Bereich Neuroonkologie: 
    • Entwicklung eines datenschutzkonformen verteilten tSNE zur Typisierung von Hirntumoren anhand von DNA-Methylierungsdaten erfolgreich umgesetzt.
    • Pilotstudien zeigten, dass ein Deep-Learning-Algorithmus Tumor-Subtypen anhand digitalisierter histopathologischer Schnitte zuverlässig bestimmen kann.
    • Fortschritte bei der Nutzung von Swarm-Learning zur Analyse von Copy Number Variations (CNVs) und deren prognostischer Bedeutung.
  3. Standort Freiburg: 
    • Vergleich kardiovaskulärer Komorbiditäten bei COPD-Patienten mit und ohne Alpha-1-Antitrypsin-Mangel (AATM) erfolgreich durchgeführt.
    • Signifikante Unterschiede bei Komorbiditäten, Blutlipiden und Glukoseparametern festgestellt.
    • Einfluss der Biomarker hs-Troponin und NT-proBNP auf Krankenhaussterblichkeit abgeschätzt.
    • Ergebnisse bestätigen die Plausibilität von Routinedaten bei vorsichtiger Interpretation.
  4. Standort Marburg: 
    • Einflussfaktoren auf die Dauer des Krankenhausaufenthalts bei Asthma-Patienten analysiert.
    • Entwicklung von Modellen zur Bewertung der Bedeutung einzelner Parameter (lineare und nicht-lineare Modelle).
    • Untersuchung der Auswirkungen unvollständiger Datensätze auf Verallgemeinerbarkeit der Ergebnisse.

Publikationen:

Zöller D, Haverkamp C, Makoudjou A, Sofack G, Kiefer S, Gebele D, Pfaffenlehner M, Boeker M, Binder H, Karki K, Seidemann C, Schmeck B, Greulich T, Renz H, Schild S, Seuchter SA, Tibyampansha D, Buhl R, Rohde G, Trudzinski FC, Bals R, Janciauskiene S, Stolz D, Fähndrich S. Alpha-1-antitrypsin-deficiency is associated with lower cardiovascular risk: an approach based on federated learning. Respir Res 2024; 25:38. DOI: 10.1186/s12931-023-02607-y.

Lenz S, Hess M, Binder H. Deep generative models in DataSHIELD. BMC Med Res Methodol. 2021; 21, 64. Doi: 0.1186/s12874-021-01237-6. PMID: PMC8019187.

Gruendner J, Wolf N, Tögel L, Haller F, Prokosch HU, Christoph J. Integrating Genomics and Clinical Data for Statistical Analysis by Using GEnome MINIng (GEMINI) and Fast Healthcare Interoperability Resources (FHIR): System Design and Implementation. JMIR 2020; 22:e19879. DOI: 10.2196/19879.

Gruendner J, Prokosch HU, Schindler S, Lenz S, Binder H. A Queue-Poll Extension and DataSHIELD: Standardised, Monitored, Indirect and Secure Access to Sensitive Data.  Stud Health Technol Inform. 2019;258:115-119. Doi: 10.3233/978-1-61499-959-1-115. PMID: 30942726.

Weitere Informationen:

Broschüre des MIRACUM-Konsortiums