2. LHA – Leipziger Gesundheitsatlas
Ontologien
Kick-off Meeting, Leipzig, 04.04.2016 2
• Strukturierte Repräsentation von Wissen
Konzepte, Beziehungen
• Sehr große Ontologien
Tissue
Anatomic Structure,
System, or Substance
Organ …
Anatomie Molekular-
biologie
ChemieMedizin
Lung SkinKidney …
3. LHA – Leipziger Gesundheitsatlas
Ontologiebasierte Annotationen
Kick-off Meeting, Leipzig, 04.04.2016 3
• Einheitliche, semantische
Beschreibung von Objekt-
eigenschaften
Gene, Proteine, … Publikationen Patientenakten Case Report Forms
UMLS
→ Semantische Suche, Navigation …
→ Interoperabilität, quellübergreifende Analysen, ...
• z.B. zwischen klinischen & Forschungsanwendungen
→ Identifikation von Common Data Elements (CDEs)
• z.B. Design neuer Fragebögen (Wiederverwendung)
…
4. LHA – Leipziger Gesundheitsatlas
Probleme und Ziele
Kick-off Meeting, Leipzig, 04.04.2016 4
• Bisher kaum Annotationen für z.B. Case Report Forms (CRFs),
Analyseergebnisse, komplexe Phänotypen, …
• Schwieriger und aufwendiger Annotationsprozess
• Domänenspezifische Objekteigenschaften
• Unstrukturierte Freitextangaben
• Hohe Anzahl biomedizinischer Datensätze & sehr große Ontologien
• Semantische Anreicherung der LHA-Daten durch Annotationen
• Entwicklung (semi-)automatischer Annotation Linking Verfahren
• Hohe Datenqualität: Verifikation und iterative Verbesserung
• Effiziente Verlinkung: steigende Anzahl Quellen+Anwendungen im LHA
5. LHA – Leipziger Gesundheitsatlas
Ziele AG 1.3
1) Annotationsverwaltung und Datenintegration
• Vereinheitlichung der Objekte und Dokumente und Integration
in die LHA-Forschungsdatenbank (mit AP 1.1)
2) Weiterentwicklung und Anwendung von Annotation
Linking Verfahren für LHA-Daten
• Verwendung von Metadaten + Wiederverwendung existierender Links
• Nutzen der in BIO definierten ontologischen Grundlage (mit AP 1.2)
• Realisierung effizienter, skalierbarer Annotationsverfahren
(mit Big Data Zentrum ScaDS Dresden/Leipzig)
3) Qualitätsanalyse und Verifikation der Annotationen
• Qualitätskriterien: Ranking von Annotationsvorschlägen
• Qualitätsanalyse, Verifikation und iterative Verbesserung (mit AP 1.4 und AP 2)
• Analyse der Effizienz der Linking Verfahren
Kick-off Meeting, Leipzig, 04.04.2016 5
6. LHA – Leipziger Gesundheitsatlas
Vorarbeiten – Ontology Matching
Kick-off Meeting, Leipzig, 04.04.2016 6
• GOMMA: GENERIC ONTOLOGY MATCHING AND MAPPING MANAGEMENT
• Umfangreiche Infrastruktur zur Verwaltung und Analyse der
Evolution von Ontologien und Mappings
Kirsten, Groß, Hartung, Rahm: GOMMA: A Component-based Infrastructure for managing and
analyzing Life Science Ontologies and their Evolution. Journal of Biomedical Semantics, 2:6, 2011.
7. LHA – Leipziger Gesundheitsatlas
Beispiel: Annotation von CRFs
Kick-off Meeting, Leipzig, 04.04.2016 7
• Case Report Forms (CRFs): Fragebögen / Formulare
zur Datenerhebung
• Medizinische Historie von Patienten
• Soziodemographie
• Anthropometrie
• Eignungskriterien für Patientenrekrutierung
• …
• Annotation mit Konzepten biomedizinischer Ontologien
UMLSLIFE Investigation
Ontology
BIO
9. LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In welchem Land sind Sie geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
In welchem Land ist Ihre Mutter geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
9
10. LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Metathesaurus UMLS, NCI
Codes:
https://cdebrowser.nci.nih.gov/CDEBrowser/
https://ncim.nci.nih.gov/ncimbrowser/
https://uts.nlm.nih.gov/metathesaurus.html
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In welchem Land sind Sie geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
In welchem Land ist Ihre Mutter geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
C0032040
Place of Birth
Birth Place
C3172580
Where was your biological mother born?
Mother birthplace
C0338046
Residential Home
retirement home
11. LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Metathesaurus UMLS, NCI
NCI Common Data Elements
(CDEBrowser)
Codes:
https://cdebrowser.nci.nih.gov/CDEBrowser/
https://ncim.nci.nih.gov/ncimbrowser/
https://uts.nlm.nih.gov/metathesaurus.html
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In welchem Land sind Sie geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
In welchem Land ist Ihre Mutter geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
C0032040
Place of Birth
Birth Place
2661044
Demographic Patient Birth Place Code
Birth Place
C3172580
Where was your biological mother born?
Mother birthplace
C0338046
Residential Home
retirement home
12. LHA – Leipziger Gesundheitsatlas
Patients who have had prior
recombinant erythropoietin
treatment whose anemia
had never responded
Patients who have had prior
recombinant erythropoietin (1)
treatment whose anemia (2)
had never responded (3)
Patients with established CRF
as an indication for the
treatment of anemia
Herausforderungen
Kick-off Meeting, Leipzig, 04.04.2016 12
• Fragen häufig in natürlicher
Sprache formuliert
• Identifikation relevanter Terme
oder Termgruppen
• Suche nach N:M Korrespondenzen
• Fragen können mehrere
biomedizinische Konzepte enthalten
• Standardstrategien erzeugen
1:1 Mappings
• Größe der Datenquellen
• Viele Formulare
• UMLS: >2.8 Millionen Konzepte
• Teilweise verschiedene
Sprachen (engl., dt.)
1 C0022661 Kidney Failure, Chronic
2 C0039798 therapeutic aspects
3 C0002871 Anemia
1 C0376541 Recombinant Erythropoietin
2 C0002871 Anemia
3 C0438286 Absent response to treatment
Patients with established CRF (1)
as an indication for the
treatment (2) of anemia (3)
yes no
yes no
13. LHA – Leipziger Gesundheitsatlas
Vorarbeiten - Annotation Linking
Kick-off Meeting, Leipzig, 04.04.2016 13
• Workflow zur automatischen Annotation von
medizinischen Formularen mit UMLS
Christen, Groß, Varghese, Dugas, Rahm: Annotating Medical Forms using UMLS. Proc. 11th Intl.
Conference on Data Integration in the Life Sciences (DILS), 2015.
Keyword
Identifikation
(POS-Tagging),
Tokenisierung,
Semantisches
Blocking
Matching:
TF/IDF,
Trigram, LCS,
Soft-TFIDF…
Selektion:
Threshold,
Group-based
filtering
…
Set of
annotation
mappings
ℳ𝐹1,𝑈𝑀𝐿𝑆
…
ℳ𝐹 𝑛,𝑈𝑀𝐿𝑆
Set of
forms
𝐹1 . . 𝐹 𝑛
UMLS
Preprocessing Annotation
Generation
Postprocessing
14. LHA – Leipziger Gesundheitsatlas
Erweiterte Verfahren
Kick-off Meeting, Leipzig, 04.04.2016 14
• Wiederverwendung existierender Annotationen
• Erzeugung von Annotationsclustern
• Gruppierung nach Konzepten &
Identifikation von relevanten Features
• Linking neuer CRFs nutzt Cluster
• Semantik-basierte Selektion
• Ausnutzung der semantischen
Beziehungen zwischen Konzepten
• Co-Okkurrenzen: häufig gemeinsame
Annotation zu einer Frage
• Ontologiehierarchie
• Graphbasierte Verfahren zur
Ähnlichkeitsberechnung
Victor Christen: Annotation of Medical Documents. Talk at Australian National
University, Canberra, March 2016.
15. LHA – Leipziger Gesundheitsatlas
Zusammenfassung
• LHA-Forschungsdatenbank: Komponente zur
Annotationsverwaltung und Datenintegration
• Weiterentwicklung und Anwendung von Annotation
Linking Verfahren für LHA-Daten
• CRFs, Analyseergebnisse, Phänotypen
• LIFE Investigation Ontology, BIO, externe Ontologien
• Definition von Qualitätskriterien
• Verifikation der Annotationen und iterative
Verbesserung der Verfahren und Ergebnisse
15Kick-off Meeting, Leipzig, 04.04.2016