4. Il progetto ArCo
Cosa si intende per knowledge graph?*
Un grafo codificato con un linguaggio avente una semantica formale i
cui nodi rappresentano le entità di un dominio di conoscenza e i cui
archi rappresentano relazioni tra queste entità (ontologia + dati)
Linked data è un esempio di paradigma per rappresentare i knowledge graph
LOD è un knowledge graph, composto da tanti knowledge graph
*Non c’è accordo su un’unica definizione globale di knowledge graph
8. Il progetto ArCo
Il nucleo fondamentale per il knowledge graph del
patrimonio culturale italiano
• Il Catalogo Generale è un riferimento per gli amministratori
di beni del patrimonio culturale italiano
• Ci sono molti esempi virtuosi di dataset LOD che raccolgono
dati sul patrimonio culturale
• ArCo vuole essere per il knowledge graph del patrimonio
culturale italiano quello che DBpedia è stato per LOD
~174M triple
~800k schede di catalogo
~100k concetti (classi e proprietà)
9. Il progetto ArCo
Da dove vengono i
requisiti di ArCo
• Modellazione del mondo
dei beni culturali, non solo
dei loro metadati
• Le normative ICCD, i dati
del catalogo e le esigenze
del Ministero
• Le esigenze di
rappresentazione dei dati
provenienti da altri
cataloghi
• Le esigenze degli
sviluppatori di applicazioni
per i consumatori finali
• Le esigenze di collegamento
dei dati dei beni culturali
con i dati di altri domini
• Catastrofi naturali, beni
confiscati, etc.
Graphics by Martina Sangiovanni (STLab)
10. Il progetto ArCo
Principi metodologici
• Utilizzo di buone pratiche
suggerite dalla comunità
scientifica di “ontology
engineering”
• Condivisione del lavoro “in
progress” attraverso strumenti
aperti e meetup
• Sviluppo incrementale guidato
sia dai requisiti istituzionali sia
dai requisiti provenienti dalla
comunità partecipante
• Identificazione di progetti
pilota detti “early adopter”
per collaudare le ontologie e i
dati durante il processo
• Early Adopters: Regesta, Synapta,
InnovaPuglia, OnData
Graphics by Martina Sangiovanni (STLab)
16. Il progetto ArCo
Dalle storie alle competency questions
• Quali sono le coordinate geografiche del bene culturale
X?
• Quali eventi culturali hanno interessato il bene
culturale X?
• Qual è lo stato di conservazione del bene culturale X? E
quali interventi sul bene sono stati proposti?
• A quando risale la realizzazione del bene culturale X? E
quale motivazione giustifica la cronologia?
• Quali sono tutti gli autori o gli ambiti culturali attribuiti
al bene culturale X?
• …
18. Il progetto ArCoIl progetto ArCo
Strumenti e metodi di testing basati
sull’uso di ontologie fondazionali
Qual è lo stato di conservazione del bene culturale X?
E quali interventi sul bene sono stati proposti?
SELECT ?entity ?entityLabel ?conservation ?proposedIntervention
WHERE{ ?entity rdfs:label ?entityLabel ;
arco-dd:proposedIntervention ?proposedIntervention ;
arco-dd:hasConservationStatus ?conservation .
}
22. Il progetto ArCo
ArCo è una creatura che evolve
• Nuove sfide di ricerca
• Release stabile vs versione “developer”
• Una comunità di fruitori e sviluppatori in crescita
• A livello internazionale
• Nuovi concetti e moduli
• e.g. beni naturalistici
• Nuovi requisiti
• Dalla comunità nazionale e internazionale
• Da studiosi, start-up, insegnanti, amministratori, etc.
• Per supportare applicazioni intelligenti
• Nuovi allineamenti e collegamenti
• e.g. Biblioteche e archivi, rijksmuseum LOD
23. Il progetto ArCo
Riferimenti utili
Piero Andrea Bonatti, Stefan Decker, Axel Polleres, Valentina
Presutti: Knowledge Graphs: New Directions for Knowledge
Representation on the Semantic Web (Dagstuhl Seminar 18371).
29-111
Eva Blomqvist, Valentina Presutti, Enrico Daga, Aldo
Gangemi:Experimenting with eXtreme Design. EKAW 2010: 120-134
Valentina Presutti, Giorgia Lodi, Andrea Giovanni Nuzzolese, Aldo
Gangemi, Silvio Peroni, Luigi Asprino: The Role of Ontology Design
Patterns in Linked Data Projects. ER 2016: 113-121
Pascal Hitzler, Aldo Gangemi, Krzysztof Janowicz, Adila Krisnadhi,
Valentina Presutti: Ontology Engineering with Ontology Design
Patterns - Foundations and Applications. Studies on the Semantic
Web 25, IOS Press 2016, ISBN 978-1-61499-675-0
Eva Blomqvist, Azam Seil Sepour, Valentina Presutti:Ontology
Testing - Methodology and Tool. EKAW 2012: 216-226
24. 1
16 aprile 2019
Istituto centrale per il catalogo e la documentazione
Roma, via di San Michele 18
IL PROGETTO ARCO E I DATI APERTI DEL
CATALOGO GENERALE DEI BENI CULTURALI
Convegno
Il Knowledge Graph di ArCo
Valentina Anita Carriero
25. Il Knowledge Graph di ArCo
Com’è fatta una release di ArCo
https://w3id.org/arco
26. Il Knowledge Graph di ArCo
GUIDE d’uso per ogni release, che ne spiegano i contenuti, con spiegazioni testuali e diagrammi
http://www.essepuntato.it/static/graffoo/graffoo.html
27. Il Knowledge Graph di ArCo
ONTOLOGIE, con codice sorgente
e documentazione HTML
28. Il Knowledge Graph di ArCo
DATASET scaricabile e interrogabile su SPARQL
endpoint, con ontologie, dati del Catalogo
Generale dei Beni Culturali e dati del DB Unico su
istituti e luoghi della cultura ed eventi culturali
29. Il Knowledge Graph di ArCo
Esempi di COMPETENCY
QUESTIONS, a cui il
knowledge graph di ArCo è
in grado di rispondere,
e relative SPARQL queries
es.:
30. Il Knowledge Graph di ArCo
Com’è fatta una release di ArCo
https://github.com/ICCD-MiBACT/ArCo
RDFizer, tool per la
trasformazione dei
dati da XML a RDF
31. Il Knowledge Graph di ArCo
ArCo ontology network
https://w3id.org/arco/ontology/arco/
32. Il Knowledge Graph di ArCo
ArCo ontology network
Principi di modellazione
RIUSO di ontologie esterne, sia diretto sia indiretto
RIUSO e creazione di Ontology Design Patterns
(ODPs)
DOPPIA MODELLAZIONE per lo stesso
concetto:
• Relazioni ennarie (legano più di due
entità)
• Relazioni binarie (legano due entità)
= shortcut
Ontologia MULTILINGUA (ita + eng)
Ontologia BEN DOCUMENTATA
(commenti, esempi d’uso, diagrammi)
es.:
33. Il Knowledge Graph di ArCo
ArCo ontology network
https://w3id.org/arco/ontology/
34. Il Knowledge Graph di ArCo
ArCo ontology network
https://w3id.org/arco/ontology/
MODULO ARCO
È il modulo centrale della rete
importa tutti gli altri moduli
modella concetti top-level del dominio dei beni culturali
https://w3id.org/arco/ontology/arco/
MODULO CORE
Modella concetti generali e trasversali all’intera rete
è importato da tutti gli altri moduli
https://w3id.org/arco/ontology/core/
MODULO CATALOGUE
Modella concetti collegati al Catalogo Generale dei Beni Culturali
in particolare alle schede di catalogo
https://w3id.org/arco/ontology/catalogue/
gerarchia dei beni culturali
categorie di diverse tipologie di beni
scheda di catalogo moduli informativi
moduli di approfondimento
35. Il Knowledge Graph di ArCo
ArCo ontology network
https://w3id.org/arco/ontology/
MODULO CULTURAL-EVENT
Modella gli eventi culturali che coinvolgono il bene culturale, e i beni
immateriali che si configurano come eventi ricorrenti
https://w3id.org/arco/ontology/cultural-event/
MODULO DENOTATIVE-DESCRIPTION
Modella le caratteristiche del bene culturale, osservate/osservabili
durante la catalogazione e misurabili in accordo con un sistema di
riferimento
https://w3id.org/arco/ontology/denotative-description/
eventi e mostre culturali
eventi ricorrenti
caratteristiche tecniche del bene
stato di conservazione
misure
elementi apposti sul bene (emblemi, iscrizioni, timbri, etc.)
36. Il Knowledge Graph di ArCo
ArCo ontology network
https://w3id.org/arco/ontology/
MODULO CONTEXT-DESCRIPTION
Modella gli attributi del bene culturale, che non risultano da
osservazione/misurazione, ma che sono associati a esso
https://w3id.org/arco/ontology/context-description/
MODULO LOCATION
Modella informazioni relative alla localizzazione e alla
georeferenziazione del bene culturale
https://w3id.org/arco/ontology/location/
attribuzione di autore
cronologia
appartenenza a collezioni e ad archiviinterventi di conservazione e indagini
documentazione e bibliografia
relazioni con altre opere (es.: fasi preparatorie, copie)
condizione giuridica e acquisizione
[…]
diversi tipi di localizzazione del bene nel tempo (attuale, luogo di ritrovamento, etc.)
identità catastale
37. Il Knowledge Graph di ArCo
327 classi
379 object properties
154 datatype properties
176 named individuals
ArCo ontology network
I numeri della network
38. Il Knowledge Graph di ArCo
modulo ArCo https://w3id.org/arco/ontology/arco/
39. Il Knowledge Graph di ArCo
modulo Core https://w3id.org/arco/ontology/core/
part-of
situation
place
classification
http://www.ontologydesignpatterns.org/cp
/owl/place.owl
es.:
40. Il Knowledge Graph di ArCo
modulo Catalogue https://w3id.org/arco/ontology/catalogue/
41. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/catalogue/
sequence
modulo Catalogue
42. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/denotative-description/
description&situation
shortcut
modulo Denotative Description
description
situation
classification
43. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/denotative-description/
modulo Denotative Description
44. Il Knowledge Graph di ArCo
collection
https://w3id.org/arco/ontology/denotative-description/
modulo Denotative Description
45. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/context-description/
modulo Context Description
born digital archives
46. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/cultural-event/
modulo Cultural Event
47. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/cultural-event/
modulo Cultural Event
sequence
collection
48. Il Knowledge Graph di ArCo
modulo Location https://w3id.org/arco/ontology/location/
49. Il Knowledge Graph di ArCo
https://w3id.org/arco/ontology/location/
time indexed situation
shortcut
modulo Location
54. Il Knowledge Graph di ArCo
• Trasformare le schede del Catalogo Generale dei Beni
Culturali in un Knowledge Graph
• Schema di riferimento: moduli della rete di ontologie
ArCo
• Paradigma di riferiemento: Linked Open Data
Obiettivo
55. Il Knowledge Graph di ArCo
• Sorgente dati: ~800 mila di schede catalografiche del
Catalogo Generale dei Beni Culturali
• Formato di input: XML
Materiale
56. Il Knowledge Graph di ArCo
• Ontologie
• 327 class, 379 object property e154 datatype property
• 395 restrizioni e 130 assiomi di disgiuntezza
• 37 allineamenti con 7 ontologie e vocabolari esterni
• 59 classi e proprietà riusate direttamente da altre ontologie
• Dati
• 173.662.153 triple
• 24.008 assiomi owl:sameAs per il linking
• 18.746 entitàdistinte collegate da altri dataset in LOD
Risultati
60. Il Knowledge Graph di ArCo
• Software di conversionedei dati XML rappresentati
secondo gli standard di catalogazione ICCD in RDF
modellati secondo le ontologie di ArCo
• Implementato in Java 8 e supporto Maven
• Open Source sul repo GitHub del progetto
Convertire i dati con RDFizer
65. Il Knowledge Graph di ArCo
• Findable:
• URI permantenti (w3id) per identificare entità sia nelle
ontologieche nei dati
• DOI (10.5281/zenodo.2630447) per identificare/citareil
Knowledge Graph di ArCo
• ArCo è indicizzato e metadato su Linked Open Vocabularies
• Accessible: ci basiamo ssu protocolli standard aperti
(HTTP(S)) per l’accessibilità e l’interrogazione (SPARQL)
• Interoperable: usiamo protocolli standard aperti per la
modellazione della conoscenza (RDF e OWL)
• Reusable: il Knowledge Graph è rilasciato con licenza CC
BY-SA 4.0
Always be FAIR!
66. Il Knowledge Graph di ArCo
• Le URI permanenti sono costruite a partire dal base URI
https://w3id.org/arco/
• Ontologie
• Base namespace:
https://w3id.org/arco/ontology/{ID Ontologia}
• Esempio: https://w3id.org/arco/ontology/core
• Dati
• Base namespace:
https://w3id.org/arco/resource/{Tipo}/{ID entità}
• Esempio:
https://w3id.org/arco/resource/Agent/dcd4ca7b54dd3d7dac0
83dd4c54a9eef
URI permanenti
67. Il Knowledge Graph di ArCo
1. Identifichiamo un set di elementi
nel sorgente XML che costituiscono
una possibile chiave
2. Rimuoviamo i caratteri non
ammessi in una URI e convertiamo
il valore in lower case
3. Riordiniamoin ordine alfabetico
4. Calcoliamo l’MD5 checksum sulla
stringa risultante
Politica per generazione ID entità
<AUTN>Friscia Albert</AUTN>
friscia-albert
ex. albert-friscia
dcd4ca7b54dd3d7dac083dd4c54a9eef.
https://w3id.org/arco/resource/Agent/dcd4ca7b54dd3d7dac083dd4c54a9eef
Come produrre entità del mondo da stringhe
69. Il Knowledge Graph di ArCo
• Collassare individui distinti genarati per la stessa entità
• Ex: “Andrea d'Agnolo” e “Andrea d'Agnolo detto del Sarto”
• Deduplicazione ricondotta ad un problema di
allinemento interno
• ArCo utilizzato sia come dataset sorgente che target
• La deduplicazione ottenuta con LIMES
• Metrica per il linking: Jaccard distance sui valori rdfs:label
associati alle entità
• Threshold estremamente selettivo: 0.8 sul range [0-1]
Deduplicazione
70. Il Knowledge Graph di ArCo
• Disaccoppiare individui erroneamentecollassati su una
stessa entità
• Studio di motif che forniscono l’impronta digitale di
un’entità
• Ex. Periodo di attivitàdi un autore e tipo di beni ad egli
associati
• Attività in corso
• Ci aspettiamo un numero ristretto di casi rispetto alle
dimensioni del Knowledge Graph
Disambiguazione
72. Il Knowledge Graph di ArCo
• L’entity linking è ottenuto utilizzando LIMES
• Metrica per il linking: Jaccard distance sui valori
rdfs:label associati alle entità
• Threshold estremamente selettivo: 0.9 sul range [0-1]
• Al di sotto del threshold i link candidati sono scartati
• 0.9 approssima risultati affidabili al 100% (test manuale su un
campione del 10% dei link ottenuti)
• Link rappresentati con assiomi owl:sameAs
LIMES - Linking
76. Il Knowledge Graph di ArCo
• OntoPiA-L0 usata come top-level ontology di ArCo
• ArCo riusa direttamente
• Level-0 (l0),
• Role ontology (RO)
• Measurement Unit Ontology (MU)
• Core Location Vocabulary (CLV)
• Time ontology (TI)
• Core Person Vocabulary (CPV)
• Core Organization Vocabulary (COV)
• Language Ontology
• Cultural-ON
• L’ontologia Cultural Heritage di OntoPiA è il punto di accesso
di ArCo nella network OntoPiA
ArCo è parte di OntoPiA