„Beyond Metadata“ – Wir reichern LIVIVO semantisch an!

Von Alexandra Hagelstein

Das ZB MED-Suchportal LIVIVO enthält Metadaten aus 55 Millionen Publikationen der Lebenswissenschaften. Typische Metadaten sind beispielsweise Titel, Namen der Autorinnen / Autoren oder das Erscheinungsjahr. Mit unserer neuen Methode extrahieren wir nun Titel und Abstract der Publikationen aus LIVIVO und annotieren die Texte mit den Begriffen der Ontologien. Volltexte durchsuchen wir aktuell noch nicht.

Was ist eigentlich eine Ontologie?

Ontologien enthalten semantische Informationen zu Begriffen, die sie beinhalten. Eine Ontologie repräsentiert Wissen über bestimmte definierte Fachbereiche. Dabei werden Entitäten, also die einzelnen Begriffe, und ihre strukturellen Beziehungen zueinander modelliert. Diese Beziehungen werden in der Regel hierarchisch dargestellt. Bei einer hierarchischen Darstellung sind die Elemente ausgehend von einer Wurzel wie Äste in einem Baum einander über- und untergeordnet.

Nehmen wir passend zum Sommer und zur Kirschzeit den englischen Begriff „cherries“ aus dem agrarwissenschaftlichen Thesaurus Agrovoc. „Cherries“ ist sowohl ein Oberbegriff von „sour cherries“ und „sweet cherries“, als auch Unterbegriff von „stone fruits“. Der Begriff „stone fruits“ ist wiederum Unterbegriff von „fruits“ usw. Auch gleichrangige Begriffe werden dargestellt. So ist „fruits“ in Agrovoc auf der selben Ebene wie beispielsweise „spices“, „legumes“, „cereals“ annotiert.

Der Agrovoc-Thesaurus ist Teil der „Linked Open Data Cloud“. Die LOD Cloud besteht aus offen zugänglichen und maschinenlesbaren Ontologien von verschiedenen Wissensdomänen. Eine der bekanntesten Ontologien aus der LOD Cloud ist zum Beispiel DBpedia. Neben Agrovoc gibt es weitere Ontologien, die den spezifischen Bereich der Lebenswissenschaften abdecken, aus denen wir aktuell noch zwei weitere benutzen. Medical Subject Headings (Akronym: MeSH) enthält Begriffe aus dem Bereich Medizin und semantische Informationen derselben. DrugBank enthält bedeutungstragende Informationen zu Medikamenten und Proteinen.

Woran forschen wir von ZB MED?

Üblicherweise erfolgt die Annotation von Schlagwörtern in Dokumenten manuell. Seit einiger Zeit beschäftigen wir uns mit Methoden, unsere LIVIVO-Metadaten automatisiert semantisch anzureichern, damit wir die Metadaten auch inhaltlich erschließen können. In einer Publikation, die auch bereits zur Veröffentlichung bei einer Konferenz (1) eingereicht wurde, stellen wir einen Ansatz vor, wie wir Metadaten mit Entitäten aus den Ontologien MeSH, Agrovoc und DrugBank semantisch verknüpfen. Die drei Ontologien decken schon ein breites Spektrum im Bereich der Lebenswissenschaften ab. Für die automatisierte Anreicherung benutzen wir ein JAVA-Framework, dass von IBM entwickelte wurde und als Open Source mit dem Namen UIMA (Unstructured Information Management Architecture) verfügbar ist. Das Framework ist beliebig mit weiteren Ontologien erweiterbar.

Die Entitäten der LOD Cloud werden mithilfe des Apache UIMA Frameworks aus den Metadaten extrahiert. Im ersten Schritt lesen wir Titel und Abstract aus unserer Wissensdatenbank, danach erfolgt mit einem sogenannten Offset-Tokenizer die Zerlegung der Sätze in einzelne Wörter. Dabei berücksichtigt der Offset-Tokenizer sowohl einzelne Wörter wie „brain“, als auch zusammengesetzte Nomen wie „epileptic seizures“ oder „Long QT Syndrome“ als jeweils ein Token. Die einzelnen Tokens werden mit dem Conceptmapper semantisch mit den entsprechenden Einträgen aus den Ontologien annotiert. Zum Schluss werden die annotierten Daten in die Wissensdatenbank aufgenommen.

In den Metadaten von LIVIVO wurden mehr als 1 Milliarde Entitäten gefunden. Die meisten von ihnen stammen aus MeSH (531 Millionen), gefolgt von Begriffen aus Agrovoc (447 Millionen) und Drugbank (50 Millionen).

Unsere ersten Ergebnisse

Als erste Anwendung haben wir die Ergebnisse unserer Arbeit als Wordcloud grafisch dargestellt. Dazu haben wir aus jeder Ontologie die 100 am häufigsten gefundenen Begriffe aus der Wissensdatenbank extrahiert und mit Wordclouds visualisiert. Mit Hilfe eines Schiebereglers lässt sich die Grafik in der Anwendung skalieren. Auf Basis dieser Wordclouds können dann Services entwickelt werden.

Beyond Metadata_Wordcloud

Diese Wordcloud zeigt die 100 am häufigsten gefundenen Begriffe mit Agrovoc.

Der Prototyp der Applikation ist bereits online verfügbar. Mithilfe des Ansatzes, Begriffe automatisch aus unseren Metadaten zu extrahieren, wollen wir in Zukunft neue Funktionen für LIVIVO anbieten. Sobald es dort Neuigkeiten gibt – und diese werden auch nicht lange auf sich warten lassen – erfahren Sie es zuerst hier im ZB MED-Blog!


(1) Bernd Müller / Alexandra Hagelstein: Beyond Metadata – Enriching life science publications in LIVIVO with semantic entities from the linked data cloud. Köln, 2016. Wissenschaftliche Publikation eingereicht zur Konferenz „Semantics“, Leipzig


Links zu Ontologien:
Agrovoc
MeSH
DrugBank
DBpedia

 

Verlag stellt Creative-Commons-Lizenzen in Frage: Warum (liberale) Open-Content-Lizenzen doch sinnvoll für Autorinnen und Autoren sind

Von Jasmin Schmitz

Die Creative-Commons-Lizenz CC-BY ist die laut Directory of Open Access Journals (DOAJ) mit Abstand am häufigsten genutzte Lizenz. Ein Blogbeitrag von De Gruyter Open stellt nun in Frage, ob die Lizenzbedingungen tatsächlich im Sinne der wissenschaftlichen Autorinnen und Autoren sind [1].

Dabei stützt man sich auf die Ergebnisse einer Befragung. Autorinnen und Autoren wurde die Frage gestellt, ob sie ohne persönliche Zustimmung Lesern erlauben würden, ihre Publikation zu übersetzen, in einen Sammelband zu übernehmen, automatische Extraktion von Daten mittels Software durchzuführen oder die Arbeit von einer kommerziellen Firma noch einmal zu veröffentlichen. Zweifelsohne sind dies alles Nutzungsmöglichkeiten, die von der CC-BY-Lizenz gestattet werden. Während beim letzten Aspekt (kommerzielle Wiederverwendung) die Zustimmung bei unter 10% liegt, erreichen sie bei den übrigen Punkten unter 40% Zustimmung. Daraus wird geschlossen, dass die Mehrheit der Autorinnen und Autoren mit den Grundsätzen der CC-BY-Lizenz nicht einverstanden ist.

Allerdings ist die Art, wie die Fragen gestellt wurden, problematisch (wie auch in den Kommentaren angemerkt [2]), weil der insbesondere für die Wissenschaft relevante Kernaspekt der „Pflicht zur Namensnennung“ (Attribution), die Bestandteil aller Creative-Commons-Lizenzen ist,  in der Fragestellung nicht auftaucht. Wissenschaftliche Autorinnen und Autoren sind insbesondere daran interessiert, dass die von ihnen generierten Ergebnisse und Erkenntnisse auch mit ihrem Namen in Verbindung gebracht werden. Zudem sind sie an deren Verbreitung interessiert. Die CC-BY-Lizenz ist hier ideal, weil sie in ihren Lizenzbedingungen vorsieht, dass ein Werk genutzt und verbreitet werden darf, ohne dass jeweils die Zustimmung der Autorinnen und Autoren eingeholt werden, wohl aber deren Namen genannt werden muss. Letzteres ist im Übrigen auch ein Gebot der wissenschaftlichen Redlichkeit.

Zudem wird den Befragten nicht näher erklärt, was mit „Extraktion mittels automatischer Software“ und „Nutzung durch kommerzielle Firmen“ gemeint ist.  Beides wird nicht allen Autorinnen und Autoren bekannt sein. Ersteres meint in erster Linie Text und Data Mining, welches zum Ziel hat, auf der Basis größerer Text- und Datenmengen Muster oder Zusammenhänge zu finden, die unter Umständen auf neue Erkenntnisse deuten. Also eigentlich Verfahren, gegen die Wissenschaftlerinnen und Wissenschaftler nicht ernsthaft Einwände haben können. Im Rahmen der Auslegung des NC-(Non-Commercial-) Bestandteils von Creative-Commons-Lizenzen gelten selbst gemeinnützige Plattformen wie Wikipedia als kommerziell, wenn sie eine Textauswahl als CD/DVD vertreibt. Zur kommerziellen Nutzung würde auch die Aufnahme in Fachdatenbanken gehören, die dann unter Umständen gegen Gebühr lizenziert werden. Beides dient aber auch schlussendlich wieder der Verbreitung. Mit der Frage nach unautorisierter Übersetzung und Aufnahme in Sammelbänden werden Nutzungsszenarien angesprochen, die im wissenschaftlichen Kontext nicht unbedingt alltagsüblich sind, wenngleich sie auch in Einzelfällen vorkommen.

Was wäre die Alternative zur Creative-Commons-Lizenzierung? Ohne eine Open-Content-Lizenz gilt das Urheberrecht. Verschwiegen wird, dass klassische Verlags-/Autorenverträge häufig vorsehen, dass Autorinnen und Autoren das ausschließliche Nutzungsrecht an den Verlag abtreten und somit im schlimmsten Fall selbst von der Nutzung ihres eigenen Werkes ausgeschlossen werden [3].

Mit ausschließlichem Nutzungsrecht kann der Verlag ebenfalls den Artikel auf vielfältige Weise weiter nutzen, ohne Autorinnen und Autoren um Erlaubnis zu fragen. Bei einer Creative-Commons-Lizenzierung hingegen behalten Autorinnen und Autoren ihre Nutzungsrechte.

Die Vergabe von Creative-Commons-Lizenzen für Open-Access-Publikationen in eigenen Zeitschriften bedeutet schlussendlich für Verlage, dass sie den von ihnen veröffentlichten Content nicht exklusiv besitzen. Aus wirtschaftlicher Sicht mag das ein Nachteil sein. Doch auch Verlage sind an einer möglichst großen Verbreitung interessiert und die damit einhergehende Möglichkeit, häufiger rezipiert und zitiert zu werden.

Die Studie zeigt lediglich, wie wenig Autorinnen und Autoren tatsächlich über Urheberrecht, Nutzungsrechte und die Vorteile, die Open-Content-Lizenzen wie Creative Commons bieten, wissen [4]. Hier ist dringend Aufklärung vonnöten! Die Ergebnisse taugen aber nicht dazu, die bisherige Praxis in Bezug auf Vergabe von Open-Content-Lizenzen bei Open-Access-Zeitschriftenbetreibern in Frage zu stellen.


Weitere Informationen zum Thema Creative-Commons-Lizenzen finden sich in unserem FAQ „Creative-Commons-Lizenzen: Was ist darunter zu verstehen?“ 


[1] Blogbeitrag von De Gruyter Open, 25. April 2016

[2] Siehe Kommentar von Bernhard Mittermaier vom 1. Mai 2016.

[3] Siehe Kommentare von Sebastian Nordhoff vom 26. April 2016 und Richard W vom 2. Mai 2016.

[4] Siehe Kommentare von Sebastian Nordhoff vom 26. April 2016, Nicholas Goncharoff vom 29. April 2016 und Richard W vom 2. Mai 2016.