11. “Linked data is een digitale methode
voor het publiceren van gestructureerde gegevens,
zodanig dat deze beschikbaar [en interoperabel]
gemaakt
kunnen worden op het internet en daardoor ook beter
bruikbaar zijn.”
(Wikipedia)
Oplossing: Linked (Open) Data
12. ● gestructureerde gegevens
● publiceren op internet
● beter bruikbaar
● koppelen van gegevens
● semantisch zoeken
● automatisch te interpreteren door computers
Op een rijtje:
13. subject → predicaat → object
Manier van meningsvol verbinden van data
zodat ook computer het begrijpt
Bouwsteen van LOD: triple
15. Triples
Subject Predicaat Object
Boek Heeft titel Lofrede op Rembrandt
Boek Geschreven door Johannes Immerzeel jr
Boek Gaat over Rembrandt
Boek Publicatiejaar 1852
Archiefstuk Betreft Rembrandt Harmensz. van Rijn
Archiefstuk Betreft Saskia van Uylenburgh
17. DCMI Metadata Terms (dcterms)
EBUCore
Bibliographic Ontology (BIBO)
Schema.org
Metadata-
standaarden
Europeana Data Model (EDM)
CIDOC-CRM
Metadatastandaarden voor verbinden van gegevens
Records in Contexts (RiCO)
RDA
20. UBU
KB
Rijksmuseum
Wikidata
Via SPARQL queries/ API calls
Moeten we dat allemaal beheersen? NEE!
Begrip ervan is wel nuttig
Zie bijvoorbeeld de Wikidata query editor:
https://query.wikidata.org/querybuilder/?use
lang=nl
23. Triplestore: Landing page voor instelling
Gebruikers die toegang hebben tot de
LOD collectie
Alle LOD datasets van deze instelling.
Kunnen zowel collecties als research
data zijn
Snel toegang tot LOD datasets,
opgeslagen SPARQL queries van alle
gebruikers en data stories
Naam van de instelling (in
ons geval dus UBU o.i.d.)
24. Browser: live LOD data bekijken en
‘doorklikken’: ‘Creator’ brengt je bij
VIAF, UuLink brengt je bij dit item in
onze collectie, etc.
Mogelijkheid om
LOD te bevragen,
analyseren en te
verbinden aan
andere LOD
LOD graphs die in
deze dataset zijn
opgenomen
Bijlagen bij de
LOD, zoals
conversiebestand,
csv van originele
dataset etc.
LOD dataset pagina: toegang tot triples
Instellingen van dataset, zoals
toegangsrechten
25. Zelf aan de slag
https://uu.triply.cc/ubu/-/overview
Queries:
https://uu.triply.cc/ubu/-/queries
Editor's Notes
We schetsen nu de huidige situatie aan de hand van een voorbeeld: alle informatie over Rembrandt willen vinden.
De meeste mensen gaan via Google zoeken of via Wikipedia. Ze komen dan bijvoorbeeld op dit schilderij van Rembrandt: “De anatomische les van dr. Nicolaes Tulp”, dat bij het Mauritshuis hangt.
Dit zijn de metadata die het Mauritshuis over het schilderij toont op zijn website (afkomstig uit hun collectiebeheersysteem).
Hier een boek over Rembrandt, o.a. aanwezig bij de Tilburgse Universiteitsbibliotheek.
Dit zijn de bibliografische metadata van het boek bij de Tilburgse Universiteit (uit online catalogus).
Ook over Rembrandt: dit archiefstuk bij het Stadsarchief Amsterdam. Het is de akte van ondertrouw van Rembrandt en Saskia Uijlenburg. Die zul je bij het googelen niet zo gemakkelijk vinden, omdat de informatie niet zo verfijnd is ontsloten op de website van het Stadsarchief.
Dit zijn de beschrijvende gegevens die het Stadsarchief van de akte heeft.
En bij de RKD (kennisinstituut over kunstgeschiedenis) is veel achtergrondinformatie te vinden.
En verder kun je natuurlijk nog in wikipedia kijken en op allerlei andere plaatsen op het web.
Het probleem is dat de informatie over Rembrandt versnipperd in de verschillende systemen staat. Een gebruiker die alles over Rembrandt wil weten, moet op verschillende websites kijken. Die moet je maar net allemaal kunnen vinden. Ook is het lastig dat iedere website net weer anders werkt en dat de informatie steeds weer anders georganiseerd is.
Voor een computer is het nog veel lastiger om alle informatie over een onderwerp (wie, wat, waar, wanneer) bij elkaar te sprokkelen. En het is voor veel toepassingen wel nodig dat een computer dat kan, bijvoorbeeld als je zelf een website of app wilt ontwikkelen over een onderwerp. Of als je er onderzoek naar wilt doen.
Een oplossing is werken met Linked Data. Hier een eenvoudige definitie daarvan. Die is wel erg algemeen.
Maar hoe werkt dat? In Linked Open Data gaat het erom dat de computer de verbanden kan leggen. Daarvoor is het nodig dat alles ondubbelzinnig wordt vastgelegd, op een computerleesbare manier. Een triple is de manier waarop informatie wordt vastgelegd in Linked Data technologie. Het is een “zinnetje” dat steeds uit drie elementen bestaat: subject, predicaat en object.
De informatie wordt uitgedrukt in een soort zinnetje met twee “entiteiten” (een “subject” en een “object”) en een “relatie” daartussen. We beginnen met het boek dat gaat over Rembrandt.
Hier zijn nog wat voorbeelden van triples, nu in tabelvorm weergegeven.
Het wordt ook vaak getekend, waarbij subject en object als cirkel worden getekend en de predicaten als (gerichte) pijlen. In het jargon spreekt men van een ‘graph’ of ‘graaf’.
Daarom gebruiken we metadatastandaarden met vaste velden. Er zijn heel veel soorten metadatastandaarden, voor het beschrijven van allerlei soorten informatie. Dit zijn een paar veelgebruikte standaarden voor het beschrijven van erfgoedobjecten.
Hoe kun je vastleggen dat het om dezelfde persoon gaat en dan ook nog op zo’n manier dat het computer-interpreteerbaar is?
Door gebruik te maken van gemeenschappelijke terminologiebronnen. Een terminologiebron bijvoorbeeld een thesaurus, een trefwoordenlijst, een classificatie o.i.d. Hij wordt opgesteld en bijgehouden door deskundigen en wordt daardoor geautoriseerd.
Ieder systeem publiceert de eigen informatie als linked open data, waar dus die identifiers instaan en de relaties zijn vastgelegd. Dat samen vormt een grote “wolk” aan gelinkte informatie. Let wel: die wolk is virtueel, het is geen afzonderlijk systeem waarin alle informatie nog een keer wordt opgeslagen.
Deze opzet zorgt ervoor dat iedere instelling zelf de regie houdt over hoe zijn eigen kennis wordt gepubliceerd. Zij hebben immers de expertise over hun eigen collectie, dus zij kunnen ook het beste bepalen hoe dit wordt gepubliceerd.