Es gibt ein Thema, das in der Begegnung von Kultur mit dem Digitalen immer etwas stiefmütterlich behandelt wird, obwohl es viel ungenutzte Möglichkeiten bereithält: Linked Open Data. Ein Grund dafür mag sein, dass es sich hierbei um eine vergleichsweise schwierige Thematik handelt, die wahrscheinlich alleine deswegen schon dem Otto-Normal-Surfer im alltäglichen Gebrauch des Internets nicht begegnet.
Linked Open Data erfüllt den Wunsch, Informationen verfügbar und die Beziehung zu anderen Daten anzeigbar zu machen. Und zwar einfach so: open und für jeden zugänglich. Das System erlaubt die Darstellung von Informationen und Relevanzen, an die Nutzerinnen bisher möglicherweise noch gar nicht gedacht haben.
Wie funktioniert unsere Suche nach Informationen?
Die Beschaffung von Informationen verläuft für die meisten von uns gewöhnlich über die Google-Suche. „Ich google das mal!“ – Den Satz kennt jeder. Der Suchmaschinenprozess ist gekoppelt an Googles Bewertungen und Kategorien der Seiten im World Wide Web, das der Webcrawler durchforstet und erfasst. Dieser Vorgang lässt sich wie folgt beschreiben: Die Ergebnisse einer Google-Suche werden uns in einer von Google bestimmten Reihenfolge angezeigt. Diese Reihenfolge hängt von bestimmten Kriterien ab, anhand derer die Webseiten bewertet werden.
Die Bewertung erfolgt durch Googles Webcrawler, das sind Bots, die Seite für Seite das WWW durchforsten. Ausgenommen davon sind Seiten des Deep Webs, zum Beispiel Datenbanken von Bibliotheken. Die Crawler schaffen es nicht auf Seiten zu gelangen, die ausschließlich über die Suchfunktion erreichbar sind. Er kann „Rembrandt“ nicht in die Suche des Bibliothekskatalogs eingeben und wird in der Folge auch nicht die Seite mit den Suchergebnissen erfassen können.
Wenn ich bei Google also eine Suche starte, werde ich im Ergebnis eine nach bestimmten Kriterien ausgewählte Liste an Webseiten sehen. Die Antwort auf meine spezifische Suchanfrage ist dann also Teil eines Textes auf einer Webseite. Hier ein Beispiel: Die Suche „Rembrandts erstes Kind“ zeigt mir ganz oben die Wikipedia-Seite zum Künstler an. Hier muss ich die gewünschte Information dann rauslesen. Die Antwort „Rembrandts erste Tochter Cornelia wird 1638 geboren“ wird mir nicht als solche angegeben, viel mehr muss ich die Antwort im Text finden.
Ein anderer Weg um an meine Information zu kommen, ist natürlich die Recherche in Bibliotheken. Die verläuft zunächst digital über den Bibliothekskatalog und dann analog im Rahmen der Buchrecherche. Auch hier gebe ich nicht in die Suchmaske „Erste Tochter von Rembrandt“ ein, sondern versuche an Medien zu kommen, in denen ich die Antwort raussuchen kann.
Ein universelles Netz an Daten
Man stelle sich jetzt vor, es gäbe ein universales Netz an Informationen, das mir sprachungebunden alle vorhandenen und maschinell lesbaren Informationen auf der Welt anzeigen kann. Die Suche könnte über Befehle erfolgen wie: „Nenne mir alle barocken Künstler“ oder „Zeige mir alle Künstler, die Linkshänder waren“.
Eine solche Möglichkeit bietet Linked Open Data (LOD) durch die Anwendung von Standards, die von jedem verwendet und erlernt werden können und sich eben nicht im Wissen bibliothekarischen Fachpersonals befinden. Es handelt sich hierbei um den Webstandard RDF (Resource Description Framework) und URIs (Uniform Resource Identifiers).
Nochmal von vorne: URLs kennen wir bereits, das sind Adressen mit denen Webressourcen, also Seiten im Netz, aufgerufen werden mit der Abfolge http://. HTTP ist das Protokoll zur Datenübertragung, sorgt also dafür, dass ich mit der Eingabe der HTTP-Adresse zu einem bestimmten Ort komme. Eine URL beschreibt also wo etwas ist. Mit URI werden Daten erst einmal angezeigt, also identifiziert und können auch mit dem RDF-System in Kontext zu anderen Daten, also anderen URIs, gestellt werden. Die URI der bibliographischen Daten Jan Vermeer beispielsweise hat die Deutsche Nationalbibliothek bereits angelegt und lautet: http://d-nb.info/gnd/118626590. Mit Hilfe des RDF-Systems lassen sich jetzt Daten, bzw. Entitäten, miteinander in Verbindung setzen. Diese Verbindung wird mit dem Triple “Subjekt” – “Prädikat” – “Objekt” angezeigt. Möchte ich nun alle Werke Jan Vermeers aufgelistet haben, werden mir im Suchergebnis alle Objekte (Werke Vermeers) des folgenden Triples angezeigt.
Jan Vermeer (Subjekt) → ist Maler von (Prädikat) → Das Mädchen mit dem Perlenohrring (Objekt)
Das Triple muss im Vorhinein angelegt werden. Da Bibliotheken eine Fülle an Informationen enthalten, bietet sich die Freigabe der Daten hier ganz besonders an. Die Deutsche Nationalbibliothek hat bereits damit angefangen und die „Gemeinsame Normdatei“ (GND) erstellt, in der verschiedene Datensätze enthalten sind, darunter die Personennamendatei und die Schlagwortnormdatei. Die Daten sind mit CC0 1.0 lizensiert und können somit von jedem und überall weiterverwendet werden.
Daten sind für alle da
Das LOD-Datennetz würde das gesamte Informationsgeflecht um das Subjekt Vermeer anzeigen. Also nicht nur die gesuchten Daten, sondern auch weitere Verknüpfungen. Mit der Darstellung eines solch umfassenden Informationsclusters werden sich neue Dynamiken im Rechercheverhalten entwickeln. Die Verknüpfung von Daten durch Triple bietet nicht nur eine evolutionäre Verbesserung der semantischen Recherche. Vielmehr ist dieses Datennetz maschinenlesbar und es ermöglicht Anwendungen, die auf ein unendlich großes strukturiertes Wissen zurückgreifen können. Der privilegierte Suchrahmen der Bibliotheken wird durch LOD disruptiv gesprengt und so entsteht ein universales Wissensnetz, das für Menschen und Maschinen gleichermaßen zugänglich ist.
Verfasserin dieses Beitrags
