Ein Vergleich lebenswissenschaftlicher Ontologien mit dem Suchportal LIVIVO

Von Alexandra Hagelstein

Semantische Suche

Im letzten Blogbeitrag der LIVIVO-Labs „Beyond Metada“ haben wir die Vorgehensweise beschrieben, wie wir LIVIVO semantisch mithilfe von Entitäten aus Ontologien anreichern. Die Entitäten werden mit dem UIMA Framework extrahiert und in unserem ZB MED Knowledge Environment gespeichert.

Bei genaueren Betrachtungen sind uns weitreichende Überschneidungen aufgefallen. Beispielsweise zeigen unsere Wordclouds die häufigsten gefundenen Begriffe aus den Thesauri in LIVIVO (1).

Interdisziplinarität der Suche

LIVIVO als Suchportal für die Lebenswissenschaften enthält Publikationen aus den Bereichen der Medizin, des Gesundheitswesens, der Ernährungs-, Umwelt- und Agrarwissenschaften. Mit MeSH (Medical Subject Headings) wird das ZB MED Knowledge Environment mit medizinischer Terminologie angereichert, Agrovoc deckt den landwirtschaftlichen Bereich ab, DrugBank umfasst pharmazeutische Fachbegriffe.

Ähnlichkeitsvergleich der Ontologien

In einer aktuellen Publikation (2) haben wir die drei erwähnten Thesauri auf ihre Ähnlichkeiten verglichen. In den Thesauri und somit in den automatisch generierten Wordclouds überschneiden sich vor allem Oberbegriffe wie zum Beispiel „Patients“ oder „Methods“. Als Maß, um die Ähnlichkeit zwischen den Ontologien zu messen, verwenden wir den Jaccard-Koeffizienten. Er teilt die Anzahl der gemeinsamen Begriffe durch die Größe aller in den jeweiligen Thesauri vorkommenden Begriffe.
Je höher der Jaccard-Koeffizent – er kann maximal den Wert „1“ annehmen – desto größer ist die Ähnlichkeit der Thesauri.

Ergebnisse

Der Jaccard-Koeffizent zwischen den Thesauri MeSH und Agrovoc beträgt 0,09.
Beim Betrachten der 1000 häufigsten Begriffe aus dem ZB MED Knowledge Environment steigt dieser Koeffizient auf 0,3 an. Das heißt, dass viele der häufigen Begriffe aus dem Suchportal LIVIVO sowohl in dem MeSH-Thesaurus, als auch in Agrovoc enthalten sind.

Der Koeffizient zwischen Agrovoc und DrugBank ist im Vergleich dazu sehr niedrig und liegt bei 0,005. Die modellierten Begriffe im Thesaurus DrugBank sind im Wesentlichen durch spezifisches Wissen geprägt und enthalten weniger Oberbegriffe als die Thesauri MeSH und Agrovoc. MeSH und Agrovoc teilen sich einige Begriffe, da sie als Oberbegriffe in vielen Disziplinen anwendbar sind. So werden Begriffe wie „Therapy“ oder „Research“ in den Thesauri abgebildet, enthalten aber kein spezifisches und unterscheidbares Fachwissen.

Zwei Venndiagramme veranschaulichen die Ergebnisse. Diagramm A stellt die Überschneidungen zwischen den Thesauri MeSH, DrugBank und Agrovoc dar. Diagramm B zeigt die Überschneidung der 1000 häufigsten Begriffe in LIVIVO.

Venndiagramme

Venndiagramme zur Veranschaulichung der Ergebnisse

Fazit

Diese Ergebnisse zeigen Schwierigkeiten, die bei der Extraktion von Begriffen aus verschiedenen Wörterbüchern für die Literatursuche auftreten. Um die Überschneidung der Begriffe zu vermeiden, gibt es zwei Möglichkeiten: Entweder die überschneidenden Oberbegriffe aus den Ontologien werden zusammengefasst und ergeben nur einen Treffer oder es wird ein Verfahren genutzt, dass die Oberbegriffe auslässt. Das Auslassen der Oberbegriffe würde jedoch zu einem Ausfall von Informationen führen, dafür könnte aber möglicherweise die Genauigkeit der Treffer erhöht werden.

 

Die Publikation wurde im Rahmen der EKAW (International Conference on Knowledge Engineering and Knowledge Management) (3) eingereicht. Die diesjährige EKAW Konferenz befasst sich mit der Wirkung von Raum und Zeit auf die Repräsentation von Wissen. Mit dem Suchportal LIVIVO ermöglichen wir unseren Nutzern den Zugang zu Literatur aus 55 Millionen Publikationen aus dem Bereich der Lebenswissenschaften.


 

(1) LIVIVO Laboratories
(2) Müller, B., Hagelstein, A., Gübitz T.: Life Science Ontologies in Literature Retrieval: A Comparison of Linked Data Sets for Use in Semantic Search on a Heterogueneous Corpus. Proceedings of the 20th International Conference on Knowledge Engineering and Knowledge Management, Bologna, Italy (2016)
(3) International Conference on Knowledge Engineering and Knowledge Management, Bologna (Italy), 19.-23. November 2016

„Beyond Metadata“ – Wir reichern LIVIVO semantisch an!

Von Alexandra Hagelstein

Das ZB MED-Suchportal LIVIVO enthält Metadaten aus 55 Millionen Publikationen der Lebenswissenschaften. Typische Metadaten sind beispielsweise Titel, Namen der Autorinnen / Autoren oder das Erscheinungsjahr. Mit unserer neuen Methode extrahieren wir nun Titel und Abstract der Publikationen aus LIVIVO und annotieren die Texte mit den Begriffen der Ontologien. Volltexte durchsuchen wir aktuell noch nicht.

Was ist eigentlich eine Ontologie?

Ontologien enthalten semantische Informationen zu Begriffen, die sie beinhalten. Eine Ontologie repräsentiert Wissen über bestimmte definierte Fachbereiche. Dabei werden Entitäten, also die einzelnen Begriffe, und ihre strukturellen Beziehungen zueinander modelliert. Diese Beziehungen werden in der Regel hierarchisch dargestellt. Bei einer hierarchischen Darstellung sind die Elemente ausgehend von einer Wurzel wie Äste in einem Baum einander über- und untergeordnet.

Nehmen wir passend zum Sommer und zur Kirschzeit den englischen Begriff „cherries“ aus dem agrarwissenschaftlichen Thesaurus Agrovoc. „Cherries“ ist sowohl ein Oberbegriff von „sour cherries“ und „sweet cherries“, als auch Unterbegriff von „stone fruits“. Der Begriff „stone fruits“ ist wiederum Unterbegriff von „fruits“ usw. Auch gleichrangige Begriffe werden dargestellt. So ist „fruits“ in Agrovoc auf der selben Ebene wie beispielsweise „spices“, „legumes“, „cereals“ annotiert.

Der Agrovoc-Thesaurus ist Teil der „Linked Open Data Cloud“. Die LOD Cloud besteht aus offen zugänglichen und maschinenlesbaren Ontologien von verschiedenen Wissensdomänen. Eine der bekanntesten Ontologien aus der LOD Cloud ist zum Beispiel DBpedia. Neben Agrovoc gibt es weitere Ontologien, die den spezifischen Bereich der Lebenswissenschaften abdecken, aus denen wir aktuell noch zwei weitere benutzen. Medical Subject Headings (Akronym: MeSH) enthält Begriffe aus dem Bereich Medizin und semantische Informationen derselben. DrugBank enthält bedeutungstragende Informationen zu Medikamenten und Proteinen.

Woran forschen wir von ZB MED?

Üblicherweise erfolgt die Annotation von Schlagwörtern in Dokumenten manuell. Seit einiger Zeit beschäftigen wir uns mit Methoden, unsere LIVIVO-Metadaten automatisiert semantisch anzureichern, damit wir die Metadaten auch inhaltlich erschließen können. In einer Publikation, die auch bereits zur Veröffentlichung bei einer Konferenz (1) eingereicht wurde, stellen wir einen Ansatz vor, wie wir Metadaten mit Entitäten aus den Ontologien MeSH, Agrovoc und DrugBank semantisch verknüpfen. Die drei Ontologien decken schon ein breites Spektrum im Bereich der Lebenswissenschaften ab. Für die automatisierte Anreicherung benutzen wir ein JAVA-Framework, dass von IBM entwickelte wurde und als Open Source mit dem Namen UIMA (Unstructured Information Management Architecture) verfügbar ist. Das Framework ist beliebig mit weiteren Ontologien erweiterbar.

Die Entitäten der LOD Cloud werden mithilfe des Apache UIMA Frameworks aus den Metadaten extrahiert. Im ersten Schritt lesen wir Titel und Abstract aus unserer Wissensdatenbank, danach erfolgt mit einem sogenannten Offset-Tokenizer die Zerlegung der Sätze in einzelne Wörter. Dabei berücksichtigt der Offset-Tokenizer sowohl einzelne Wörter wie „brain“, als auch zusammengesetzte Nomen wie „epileptic seizures“ oder „Long QT Syndrome“ als jeweils ein Token. Die einzelnen Tokens werden mit dem Conceptmapper semantisch mit den entsprechenden Einträgen aus den Ontologien annotiert. Zum Schluss werden die annotierten Daten in die Wissensdatenbank aufgenommen.

In den Metadaten von LIVIVO wurden mehr als 1 Milliarde Entitäten gefunden. Die meisten von ihnen stammen aus MeSH (531 Millionen), gefolgt von Begriffen aus Agrovoc (447 Millionen) und Drugbank (50 Millionen).

Unsere ersten Ergebnisse

Als erste Anwendung haben wir die Ergebnisse unserer Arbeit als Wordcloud grafisch dargestellt. Dazu haben wir aus jeder Ontologie die 100 am häufigsten gefundenen Begriffe aus der Wissensdatenbank extrahiert und mit Wordclouds visualisiert. Mit Hilfe eines Schiebereglers lässt sich die Grafik in der Anwendung skalieren. Auf Basis dieser Wordclouds können dann Services entwickelt werden.

Wordcloud

Diese Wordcloud zeigt die 100 am häufigsten gefundenen Begriffe mit Agrovoc.

Der Prototyp der Applikation ist bereits online verfügbar. Mithilfe des Ansatzes, Begriffe automatisch aus unseren Metadaten zu extrahieren, wollen wir in Zukunft neue Funktionen für LIVIVO anbieten. Sobald es dort Neuigkeiten gibt – und diese werden auch nicht lange auf sich warten lassen – erfahren Sie es zuerst hier im ZB MED-Blog!


(1) Bernd Müller / Alexandra Hagelstein: Beyond Metadata – Enriching life science publications in LIVIVO with semantic entities from the linked data cloud. Köln, 2016. Wissenschaftliche Publikation eingereicht zur Konferenz „Semantics“, Leipzig


Links zu Ontologien:
Agrovoc
MeSH
DrugBank
DBpedia