Mit dem schrittweisen Ausbau der Datenintegrationszentren an den universitätsmedizinischen Standorten der Medizininformatik-Initiative wird eine Basis gelegt, um Patientenkohorten anhand von klinischen Parametern, Biomarkern und molekularen/genomischen Untersuchungen zu identifizieren und in Subgruppen zu unterteilen. Im Anwendungsfall 2 des MIRACUM-Konsortiums sollen auf dieser Basis Vorhersagemodelle entwickelt werden, die zur medizinischen Erkenntnis beitragen und potentiell Ärztinnen und Ärzte bei ihren diagnostischen und therapeutischen Entscheidungen unterstützen können. Im klinischen Bereich fokussiert sich der Anwendungsfall exemplarisch auf Patientinnen und Patienten mit Lungenerkrankungen (Asthma und COPD) und mit Hirntumoren.

Ein konkretes Beispiel: Alpha-1-Antitrypsin-Mangel (AATM) ist eine Erbkrankheit, bei der im Körper das Enzym Alpha-1-Antitrypsin fehlt. Als Folge dessen kann es zu Gewebeschäden an der Lunge und an der Leber und beispielsweise schon im jungen Alter zu einer chronisch obstruktiven Lungenerkrankung (COPD) kommen. Damit unterscheiden sich COPD-Patientinnen und -Patienten mit und ohne AATM oftmals grundlegend – sowohl im Alter als auch in der Rauchhistorie, den größten Risikofaktoren für eine COPD. Das Problem ist, dass COPD mit AATM eher selten ist, weshalb prognostische Faktoren für Komplikationen und neu auftretende Komorbiditäten in der Regel in COPD-Datensätzen von Patienten ohne AATM etabliert wurden. Der Anwendungsfall „From Data to Knowledge“ möchte nun untersuchen, ob diese Faktoren trotz der grundlegenden Unterschiede auch für COPD-Patientinnen und -Patienten mit AATM verwendet werden können.

„Wir wissen, dass das One-size-fits-all-Modell in der Therapie oft nicht funktioniert. Die großen Fallzahlen helfen uns, klinisch relevante Muster besser identifizieren und bewerten zu können.“

Prof. Dr. Harald Renz
Universitätsklinikum Gießen-Marburg, Standort Marburg

Die korrespondierenden Daten in MIRACUM sind aus Datenschutzsicht als besonders schützenswert anzusehen. Eine zentrale Sammlung über alle Standorte hinweg ist dabei potentiell ein zu großes Risiko. Daher wird das Ziel verfolgt, nicht die Daten zur Analyse zu bringen, sondern die Analyse zu den Daten. Genauer gesagt sollen nur aggregierte und anonyme Daten die Standorte verlassen. Dieses Prinzip wird mittels der Software DataSHIELD umgesetzt, welche an der Universität in Newcastle entwickelt wurde. Die Software ist unter einer Open-Source-Lizenz veröffentlicht und frei nutzbar. DataSHIELD bietet verschiedene Verfahren, die zum statistischen Handwerkszeug gehören, angefangen bei der Berechnung einfacher Kennzahlen, wie von Durchschnittswerten oder Häufigkeiten, bis hin zu komplexeren Regressionsmodellen, welche in der oben beschriebenen klinischen Anwendung eingesetzt werden. Zusätzlich zu diesen bereits implementierten Analyseverfahren bietet DataSHIELD aber auch eine flexible und erweiterbare Infrastruktur, um neue Arten von Methoden der künstlichen Intelligenz zu entwickeln und auf vernetzte Daten anzuwenden. Dazu tauscht sich das MIRACUM-Konsortium eng mit dem Entwicklerteam und der DataSHIELD-Community aus.

Neben der Verwendung von anonymen aggregierten Daten wird im Anwendungsfall die Nutzung von synthetischen Daten erforscht, um dem Datenschutz gerecht zu werden. Synthetische Daten sind Daten, die keine realen Beobachtungen und Patienteninformationen enthalten, sondern allgemeine Merkmale und statistische Beziehungen realer Daten nachbilden. Für die Datennutzung in der Forschung bedeutet das, dass pro Standort virtuelle Patientendaten erstellt werden, die nicht an die Daten eines einzelnen Patienten gebunden sind. Solche Daten können dann gemeinsam genutzt werden und ermöglichen den Einsatz verschiedener Analysekonzepte, wie z.B. von statistischen Standardanalysen oder Techniken künstlicher Intelligenz. Für die Erzeugung synthetischer Daten aus realen Daten sind Ansätze des maschinellen Lernens erforderlich. Konkret werden sogenannte generative Modelle verwendet, welche die systematische und zufällige Variabilität der Originaldaten abbilden. Dies wird mit Techniken der künstlichen Intelligenz möglich, insbesondere mit Techniken aus dem Bereich des Deep Learning. Die Generierung der virtuellen Patientendaten wird verteilt über verschiedene MIRACUM-Standorte durchgeführt. Dafür wird ebenfalls die DataSHIELD-Infrastruktur genutzt. Auf diese Weise können die Analyse der Daten mit etablierten Verfahren und die Entwicklung neuer Methoden für die datenschutzkonforme Analyse von verteilten Patientendaten gemeinsam vorangetrieben werden.

Prof. Dr. Harald Binder

„Wir möchten im Use Case 2 für mindestens zwei große Krankheitsbilder Vorhersagemodelle mit Deep Learning entwickeln, trainieren und evaluieren. Und wir möchten zeigen, wie unsere Ergebnisse als innovative IT-Lösungen den Arzt bei konkreten Entscheidungen unterstützen.“

Prof. Dr. Harald Binder
Institut für Medizinische Biometrie und Statistik, Universität Freiburg, Leiter des Use Case 2 des MIRACUM-Konsortiums