„Beyond Metadata“ – Wir reichern LIVIVO semantisch an!

Von Alexandra Hagelstein

Das ZB MED-Suchportal LIVIVO enthält Metadaten aus 55 Millionen Publikationen der Lebenswissenschaften. Typische Metadaten sind beispielsweise Titel, Namen der Autorinnen / Autoren oder das Erscheinungsjahr. Mit unserer neuen Methode extrahieren wir nun Titel und Abstract der Publikationen aus LIVIVO und annotieren die Texte mit den Begriffen der Ontologien. Volltexte durchsuchen wir aktuell noch nicht.

Was ist eigentlich eine Ontologie?

Ontologien enthalten semantische Informationen zu Begriffen, die sie beinhalten. Eine Ontologie repräsentiert Wissen über bestimmte definierte Fachbereiche. Dabei werden Entitäten, also die einzelnen Begriffe, und ihre strukturellen Beziehungen zueinander modelliert. Diese Beziehungen werden in der Regel hierarchisch dargestellt. Bei einer hierarchischen Darstellung sind die Elemente ausgehend von einer Wurzel wie Äste in einem Baum einander über- und untergeordnet.

Nehmen wir passend zum Sommer und zur Kirschzeit den englischen Begriff „cherries“ aus dem agrarwissenschaftlichen Thesaurus Agrovoc. „Cherries“ ist sowohl ein Oberbegriff von „sour cherries“ und „sweet cherries“, als auch Unterbegriff von „stone fruits“. Der Begriff „stone fruits“ ist wiederum Unterbegriff von „fruits“ usw. Auch gleichrangige Begriffe werden dargestellt. So ist „fruits“ in Agrovoc auf der selben Ebene wie beispielsweise „spices“, „legumes“, „cereals“ annotiert.

Der Agrovoc-Thesaurus ist Teil der „Linked Open Data Cloud“. Die LOD Cloud besteht aus offen zugänglichen und maschinenlesbaren Ontologien von verschiedenen Wissensdomänen. Eine der bekanntesten Ontologien aus der LOD Cloud ist zum Beispiel DBpedia. Neben Agrovoc gibt es weitere Ontologien, die den spezifischen Bereich der Lebenswissenschaften abdecken, aus denen wir aktuell noch zwei weitere benutzen. Medical Subject Headings (Akronym: MeSH) enthält Begriffe aus dem Bereich Medizin und semantische Informationen derselben. DrugBank enthält bedeutungstragende Informationen zu Medikamenten und Proteinen.

Woran forschen wir von ZB MED?

Üblicherweise erfolgt die Annotation von Schlagwörtern in Dokumenten manuell. Seit einiger Zeit beschäftigen wir uns mit Methoden, unsere LIVIVO-Metadaten automatisiert semantisch anzureichern, damit wir die Metadaten auch inhaltlich erschließen können. In einer Publikation, die auch bereits zur Veröffentlichung bei einer Konferenz (1) eingereicht wurde, stellen wir einen Ansatz vor, wie wir Metadaten mit Entitäten aus den Ontologien MeSH, Agrovoc und DrugBank semantisch verknüpfen. Die drei Ontologien decken schon ein breites Spektrum im Bereich der Lebenswissenschaften ab. Für die automatisierte Anreicherung benutzen wir ein JAVA-Framework, dass von IBM entwickelte wurde und als Open Source mit dem Namen UIMA (Unstructured Information Management Architecture) verfügbar ist. Das Framework ist beliebig mit weiteren Ontologien erweiterbar.

Die Entitäten der LOD Cloud werden mithilfe des Apache UIMA Frameworks aus den Metadaten extrahiert. Im ersten Schritt lesen wir Titel und Abstract aus unserer Wissensdatenbank, danach erfolgt mit einem sogenannten Offset-Tokenizer die Zerlegung der Sätze in einzelne Wörter. Dabei berücksichtigt der Offset-Tokenizer sowohl einzelne Wörter wie „brain“, als auch zusammengesetzte Nomen wie „epileptic seizures“ oder „Long QT Syndrome“ als jeweils ein Token. Die einzelnen Tokens werden mit dem Conceptmapper semantisch mit den entsprechenden Einträgen aus den Ontologien annotiert. Zum Schluss werden die annotierten Daten in die Wissensdatenbank aufgenommen.

In den Metadaten von LIVIVO wurden mehr als 1 Milliarde Entitäten gefunden. Die meisten von ihnen stammen aus MeSH (531 Millionen), gefolgt von Begriffen aus Agrovoc (447 Millionen) und Drugbank (50 Millionen).

Unsere ersten Ergebnisse

Als erste Anwendung haben wir die Ergebnisse unserer Arbeit als Wordcloud grafisch dargestellt. Dazu haben wir aus jeder Ontologie die 100 am häufigsten gefundenen Begriffe aus der Wissensdatenbank extrahiert und mit Wordclouds visualisiert. Mit Hilfe eines Schiebereglers lässt sich die Grafik in der Anwendung skalieren. Auf Basis dieser Wordclouds können dann Services entwickelt werden.

Wordcloud

Diese Wordcloud zeigt die 100 am häufigsten gefundenen Begriffe mit Agrovoc.

Der Prototyp der Applikation ist bereits online verfügbar. Mithilfe des Ansatzes, Begriffe automatisch aus unseren Metadaten zu extrahieren, wollen wir in Zukunft neue Funktionen für LIVIVO anbieten. Sobald es dort Neuigkeiten gibt – und diese werden auch nicht lange auf sich warten lassen – erfahren Sie es zuerst hier im ZB MED-Blog!


(1) Bernd Müller / Alexandra Hagelstein: Beyond Metadata – Enriching life science publications in LIVIVO with semantic entities from the linked data cloud. Köln, 2016. Wissenschaftliche Publikation eingereicht zur Konferenz „Semantics“, Leipzig


Links zu Ontologien:
Agrovoc
MeSH
DrugBank
DBpedia

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.