Im klinischen Alltag fallen viele Texte wie Arztbriefe und Befunde an, die wertvolle Informationen zur Krankheitsgeschichte, zum -verlauf und zur Behandlung enthalten. Mit Hilfe dieser Texte könnten Programme für die automatische Verarbeitung natürlicher Sprache (Natural Language Processing, kurz NLP) Ärztinnen und Ärzte sowie Forschende bei ihrer Arbeit unterstützen. Allerdings kann das volle Potenzial der klinischen Dokumente aufgrund fehlender Standardisierung nicht ausgeschöpft werden. Die Methodenplattform GeMTeX (German Medical Text Corpus) möchte diese Lücke schließen und hat zum Ziel, medizinische Texte aus der Patientenversorgung für Forschungsprojekte verfügbar zu machen. Damit soll der größte medizinische Textkorpus in deutscher Sprache entstehen.
LogoGeMTeX

Damit die Texte aus der Routineversorgung für Klinik und Forschung genutzt werden können, müssen sie zunächst für Programme computergestützter Verarbeitung natürlicher Sprache (NLP) lesbar sein.  Hierfür sind große Mengen an annotierten Texten aus der täglichen Patientenversorgung notwendig. Annotierte Texte sind Dokumente, die durch systematische Anmerkungen zusätzliche Informationen enthalten, z. B. Angaben zu Diagnosen oder Medikationen. Die Anmerkungen werden von angehenden Ärztinnen und Ärzten manuell überprüft und dienen damit als Referenz für die weitere Verbesserung der automatischen Annotation. Auf diese Weise strukturierte Informationen können zusammen mit vorliegenden Daten für Analysen und statistische Modelle verwendet werden.

Die IT-Infrastruktur, die während der Aufbau- und Vernetzungsphase der Medizininformatik-Initiative (MII) zwischen 2018  und 2022 aufgebaut worden ist, bietet die Möglichkeit, klinische Dokumente in großem Umfang zugänglich zu machen und sie mit systematischen Anmerkungen anzureichern. Die MII-Methodenplattform GeMTeX strebt damit an, die zwei wesentlichen Engpässe bisheriger Sprachmodelle, Datenzugänglichkeit und Datenannotation, zu lösen.

Eine große Textsammlung deutschsprachiger medizinischer Texte aus der Patientenversorgung entsteht

Im Rahmen von GeMTeX sammeln die sechs universitätsmedizinischen Standorte München, Leipzig, Essen, Berlin, Dresden und Erlangen mit Einwilligung der Patientinnen und Patienten Dokumente aus elektronischen Gesundheitsakten (ePA). Mittels der Verarbeitung natürlicher Sprache werden die Dokumente datenschutzgerecht aufbereitet und in anonymisierter Form für die gemeinsame Nutzung zur Verfügung gestellt. Damit entsteht ein wertvolles Textrepertoire für Forschung und Entwicklung.

Darüber hinaus wird GeMTeX eine zentrale technische und organisatorische Struktur schaffen, um anonymisierte Texte zu sammeln und sie richtlinienkonform zur Anreicherung zu bearbeiten. Mit der entstehenden Textdatenbank können KI-Modelle trainiert und auf ihre Nützlichkeit im klinischen Alltag überprüft werden.

Die Methodenplattform GeMTeX ist am 1. Juni 2023 gestartet und wird vom Bundesministerium für Bildung und Forschung (BMBF) bis zum 31. August 2026 mit rund sieben Millionen Euro gefördert.

Weitere Informationen:

https://www.smith.care/de/gemtex_mii/ueber-gemtex/

GeMTeX-Faktenblatt (deutsch)

GeMTeX-Faktenblatt (englisch)

Zum Interview mit Christina Lohr und Luise Modersohn, wissenschaftliche Mitarbeiterinnen im GeMTeX-Projekt

Kontakt:

Projektleitung:
 

Prof. Dr. Martin Boeker
Verbundkoordinator
Konsortialleiter DIFUTURE
Professor für Medizinische Informatik
Technische Universität München/
Klinikum rechts der Isar

Martin Boeker. Bildquelle: Klinikum rechts der Isar_Technische Universität München
Prof. Dr. Martin Boeker
© Klinikum rechts der Isar, Technische Universität München

 

Prof. Dr. Markus Löffler
Stellv. Verbundkoordinator
Konsortialleiter SMITH
Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE)
Universität Leipzig

Prof. Markus Löffler © Universitätskilinikum Hamburg-Eppendorf/Ronald Frommann
Prof. Dr. Markus Löffler
© Universitätskilinikum Hamburg-Eppendorf/Ronald Frommann

 

Projektkoordination:

Janina Kind
Administratives Projektmanagement
SMITH-Geschäftsstelle
Universität Leipzig

Janina Kind. Bildquelle: UKL
Janina Kind
© UKL

Dr. Frank Meineke
Wissenschaftliches Projektmanagement/Technische Leitung
Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE)
Universität Leipzig

Frank Meineke. Bildquelle: Swen Reichhold
Dr. Frank Meineke
© Swen Reichhold

Luise Modersohn
Wissenschaftliches Projektmanagement/Leitung Annotation
Institut für KI und Informatik in der Medizin
Technische Universität München/
Klinikum rechts der Isar

Luise Modersohn (c) K. Czoppelt-Klinikum rechts der Isar
Luise Modersohn
© K. Czoppelt/Klinikum rechts der Isar

 

Christina Lohr
Wissenschaftliches Projektmanagement
Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE)
Universität Leipzig

Christina Lohr © privat
Christina Lohr
©privat

Partner:

  • Charité - Universitätsmedizin Berlin
  • ID GmbH & Co. KGaA
  • Technische Universität Darmstadt
  • Technische Universität Dresden
  • Universitätsklinikum Erlangen
  • Universitätsmedizin Essen
  • Averbis GmbH
  • Medizinische Hochschule Hannover
  • Universitätsklinikum Heidelberg
  • Deutsche Zentralbibliothek für Medizin (ZB MED)
  • Universität Leipzig
  • Ludwig-Maximilians Universität München
  • Technische Universität München
  • Universität Münster
  • Hasso-Plattner-Institut für Digital Engineering gGmbH
  • Universitätsklinikum Tübingen
  • Medizinische Universität Graz (Assoziierter Partner)