Christophe Debruyne. Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologie. INRS Symposium on "L'informatique au service de l'évaluation du risque chimique" (10 November 2022, Nancy, France)
Using Semantic Technologies to Create Virtual Families from Historical Vital ...
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologie
1. Projet TOXIN :
Des graphes de connaissances pour
la recherche en toxicologie
Christophe Debruyne
Montefiore Institute - Université de Liège
2022-11-10 @ INRS Symposium
Des diapositives avec une étoile ont été ajoutées juste avant que je monte
sur scène pour fournir plus de contexte ou pour lier cette présentation aux
défis mentionnés précédemment (e.g., la provenance).
2. ▶ TOXIN: Non-Animal Methodologies for Toxicity Testing of Chemical
Compounds est un projet financé par le Interdisciplinary Research
Program (IRP) de la Vrije Universiteit Brussel.
▶ Cette présentation est principalement basée sur :
Audrey Sanctorum, Jonathan Riggio, Jan Maushagen, Sara Sepehri, Emma
Arnesdotter, Mona Delagrange, Joery De Kock, Tamara Vanhaecke,
Christophe Debruyne & Olga De Troyer (2022) End-user engineering of
ontology-based knowledge bases, Behaviour & Information Technology,
41:9, 1811-1829, DOI: 10.1080/0144929X.2022.2092032
Remerciements
Le graphe de connaissances de TOXIN 2
3. Le graphe de connaissances de TOXIN 3
▶ Que sont les graphes de connaissances ?
▶ Le projet TOXIN : une brève description
▶ Outils dédiés pour le graphe de connaissances en TOXIN : prototypes
▶ Démonstration
▶ Résumé
Structure
4. Que sont les graphes de
connaissances ?
Le graphe de connaissances de TOXIN 4
5. Connaissances d'experts
Données structurées
Une mine de connaissances est cachée, n'est pas intégrée, et leur exploitation ainsi limitée.
Problématique
Données non structurées
Un graphe de connaissances structure ces connaissances et rend les connexions sémantiques et explicites.
… à travers les départements, les processus, les organisations, etc.
Le graphe de connaissances de TOXIN 5
6. Un graphe de connaissances consiste en un
graphe qui satisfait certaines conditions
Qu'est-ce qu'un graphe de connaissances ?
https://www.pexels.com/photo/banking-business-checklist-commerce-416322/
Le graphe de connaissances de TOXIN 6
7. Représentent des "choses"
dans un domaine.
Représentent les relations
entre les entités.
Représentent des
"catégories" d'entités.
Représentent des types de
chaînes : dates, nombres, etc.
Le graphe d'un graphe de connaissances
Entités
Relations
Types
Attributs xxxx-2020
Christophe
Trinity
College
Dublin
Certificat
A1
Personne
Employeur
titulaire
employeur
type
type
type
"2020-01-01"
"Christophe"
"1234-5678"
"2020-06-30"
employeur
id
prénom
Le graphe de connaissances de TOXIN 7
8. xxxx-2020
Christophe
Trinity
College
Dublin
Certificat
A1
Personne
Employeur
titulaire
employeur
type
type
type
"2020-01-01"
"Christophe"
"1234-5678"
"2020-06-30"
employeur
id
prénom
Les conditions d'un graphe de connaissances
1. Les types et les relations sont
formellement décrits et
documentés dans un schéma que
nous nommons une ontologie
(définitions, propriétés).
2. Intégration d'informations
provenant de différents
domaines, organisations,
départements et même de
différentes sources
3. Soutien pour dériver des relations
implicites, des idées, des
connaissances,…
Document
spécialisation
de
"Eine A1-
Bescheinigung …"
définition
"Een A1-
Attest …"
définition
Sécurité
sociale
Banque-Carrefour
des Entreprises
Lois et règlements
à travaillé pour
Le graphe de connaissances de TOXIN 8
• Pour chaque personne, max 1 date de naissance
• Pour chaque certificat, valable du < valable jusqu'au
• Si une personne est titulaire d'un certificat A1 pour un
employeur, cette personne a travaillé pour cet employeur.
• …
9. Le graphe de connaissances de TOXIN 9
An ontology is “a [formal,] explicit specification of a [shared] conceptualization" [Gru95] and extended
by [Stu98]
▶ Explicit → externalized in a document to be shared and used by agents
▶ Formal → a mathematical or logic foundation to allow reasoning
▶ Shared → for it to be meaningful
- Danger Noodle vs. Snake
Ontologies
∋ ∀𝑥(𝐶𝑎𝑡 𝑥 → 𝐴𝑛𝑖𝑚𝑎𝑙 𝑥 )
[Gru95] T. Gruber. Toward principles for the design of ontologies used for
knowledge sharing? Int. J. Hum.-Comput. Stud., 43(5-6):907–928, 1995.
[Stu98] R. Studer, R. Benjamins, and D. Fensel. Knowledge engineering: Principles
and methods. Data & Knowledge Engineering, 25(1–2):161–198, 1998.
10. Créer, enrichir, affiner et gérer les GDCs
Interpretation
Application
Développement de
schéma
Transformation des
données
Annotation des
données
Assurance qualité
Collection et intégration Usage
Stockage
Image basée sur
Denaux et al., 2017
Le graphe de connaissances de TOXIN 10
11. Développement de
schéma
Transformation des
données
Annotation des
données
Assurance qualité
Collection et intégration
Créer, enrichir, affiner et gérer les GDCs
Principalement manuel
De non-GDC vers GDC
Principalement (semi-)automatique
Enrichir un GDC
Manuel et (semi-)automatique
Manuel avec des outils
• Construire et entretenir un
GDC n'est pas anodin.
• Il existe des outils et des
techniques pour chaque
activité.
• Les outils et techniques
adéquats dépendent du
projet.
Image basée sur
Denaux et al., 2017
Le graphe de connaissances de TOXIN 11
12. 11/12/2022 Christophe Debruyne 12
▶ RDF is not really an ontology language but a data model (!!!)
▶ RDF is a W3C Recommendation
▶ RDF is for describing resources on the Web
▶ RDF is designed to be read by computers
▶ RDF uses URIs to identify and reference resources on the Web
RDF/XML is just one way of serializing RDF. Other serializations format include TURTLE and N3. NQuads and Trig
even support (named) graphs.
The data "building blocks" are called triples: <Subject, Predicate, Object>
▶ Subjects are resources, and may be identified by a URI
▶ Predicates are resources that must be identified by a URI
▶ Objects are either resources (and may be identified by a URI) or literal values
A graph data model:
Resource Description Framework
14. Resource Description Framework
Christophe Debruyne
11/12/2022 14
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix bibo: <http://purl.org/ontology/bibo/> .
@prefix dc: <http://purl.org/dc/terms/> .
<#Christophe> a foaf:Person .
<#Christophe> foaf:name "Christophe Debruyne" .
<#Christophe> foaf:member <http://www.adaptcentre.ie/>.
<#Christophe> foaf:based_near <http://dbpedia.org/resource/Brussels> .
<urn:isbn:9789057183607> a foaf:Document .
<urn:isbn:9789057183607> a bibo:Thesis .
<urn:isbn:9789057183607> dc:date "2013-09-30" .
<urn:isbn:9789057183607> dc:title "Grounding..."@en .
<urn:isbn:9789057183607> dc:creator <#Christophe> .
What we obtain is a:
• Directed graph with
• Links between data contained within the same document, and
• Links between data across documents (i.e., distributed)
But… how does this data become meaningful?
16. Le graphe de connaissances de TOXIN 16
▶ Le contexte : les principes 3R → Reduction, Replacement, Refinement de
l'expérimentation animale.
▶ L'Europe a totalement interdit l'utilisation d'animaux à des fins de test.
▶ Actuellement, il n'existe aucune méthode sans animaux validée pour évaluer
la toxicité de doses répétées (pour remplacer les autres méthodes).
▶ Cela pose un problème pour le développement de nouveaux composés
chimiques dans des secteurs tels que la cosmétique.
Ce projet explore et établit des stratégies non animales et pertinentes pour
l'homme pour évaluer la toxicité de doses répétées (concentré sur le foie).
Context
17. Le graphe de connaissances de TOXIN 17
Slide courtesy of Sara Sepehri (Vrije Universiteit Brussel)
18. Le graphe de connaissances de TOXIN 18
▶ Développer des systèmes de culture de cellules humaines qui prédisent avec
précision la toxicité hépatique ;
▶ Établir des approches informatiques intégrées qui soutiennent de manière
optimale la recherche in vitro ;
▶ Faire des recherches sur les préoccupations éthiques pouvant survenir à la
suite des nouvelles méthodes ;
▶ Veiller à ce que les stratégies non animales développées soient conformes à
toutes les exigences légales ;
▶ Former une nouvelle génération de chercheurs interdisciplinaires dans les
différents domaines scientifiques concernés par le projet ;
▶ Assurer la visibilité des stratégies développées.
Objectifs
19. Le graphe de connaissances de TOXIN 19
Outils dédiés pour le GDC
en TOXIN : prototypes
20. Le graphe de connaissances de TOXIN 20
▶ De nombreuses informations sont écrites dans des "opinions", des
documents contenant des descriptions d'expériences de recherche sur
des composés chimiques spécifiques.
- Ces informations ne sont pas structurées et nécessitent un expert
pour les interpréter.
- Ces informations peuvent évoluer dans le temps.
- Ces informations ne peuvent pas être facilement combinées avec
d'autres ensembles de données.
Problématique
21. Le graphe de connaissances de TOXIN 21
Avant : utilization des tableurs
22. Le graphe de connaissances de TOXIN 22
▶ Tableurs :
- Facile pour les utilisateurs, mais...
- Problèmes de redondance
- Problèmes d'évolutivité
- Données "plates"
- Qualité
- ...
▶ Les technologies de GCDs peuvent résoudre bon nombre de ces
problèmes, mais ont une courbe d'apprentissage abrupte.
▶ Les outils dédiés peuvent-ils fournir une solution ?
Problématique
23. Le graphe de connaissances de TOXIN 23
▶ Une métaphore d'interface s'appuie sur la connaissance de concepts
familiers pour faciliter l'apprentissage et l'utilisation d'un système.
▶ La métaphore du puzzle s'appuie sur la familiarité avec les pièces de
puzzle et a été couronnée de succès pour d'autres tâches :
programmation, interrogation et intégration de données...
▶ Dans notre solution proposée, les pièces du puzzle guident les experts en
la matière dans la création d'entrées de données valides.
Métaphore du puzzle
24. Le graphe de connaissances de TOXIN 24
Le(s) prototype(s)
Le prototype est
construit sur
Google Blockly pour
la métaphore et
Apache Jena pour
le GDC.
25. Le graphe de connaissances de TOXIN 25
Ontodia
Mouromtsev, D., Pavlov, D., Emelyanov, Y., Morozov, A., Razdyakonov, D.
and Galkin, M., 2015. The Simple Web-based Tool for Visualization and
Sharing of Semantic Data and Ontologies. In International Semantic Web
Conference (Posters & Demos).
Ontodia est un
logiciel libre qui
« comprend »
les GDCs stockés
en RDF. Il nous
permet
d'explorer le
contenu du GDC.
26. Démonstration !
Le graphe de connaissances de TOXIN 26
Développement de
schéma
Transformation des
données
Annotation des
données
Assurance qualité
Collection et intégration
27. Le graphe de connaissances de TOXIN 27
Avantages et inconvénients
▶ Avantages
- Les utilisateurs sont guides
- Les mappages évitent les erreurs
- "Fun"
▶ Inconvénients
- Potentiellement chronophage
- Structure et pensée linéaires (arbres vs. graphes)
- Contraintes (mais…)
▶ Compromis: tableurs revisités + controlled vocabularies et l'outil
▶ Création des concepts de domaine? Voire rapport.
28. Le graphe de connaissances de TOXIN 28
Faceted
browser
communicant
avec le GDC de
TOXIN
Screenshot
courtesy of Jan Maushagen
(Vrije Universiteit Brussel)
29. Le graphe de connaissances de TOXIN 29
Future work
30. Le graphe de connaissances de TOXIN 30
Vers l'enrichissement du GDC TOXIN
TOXIN KG
Toxicological
ecosystem
Conclusion
Domain expert
Slide courtesy of Guillaume Vrijens (Université de Liège)
31. Le graphe de connaissances de TOXIN 31
Vers l'enrichissement du GDC TOXIN
Slide courtesy of Guillaume Vrijens (Université de Liège)
TOXIN data
Identification
with rules Pathways
Genes,
biological
processes,...
Compound:
- Basic Red 51
Observations:
- ↑ Cholesterol
- ↑ Triglycerides
- …
- Steatosis
- …
Non-alcoholic
fatty liver disease
pathways
Fatty acid
biosynthesis
Integrate and store information from
different datasets in the TOXIN KG.
32. Le graphe de connaissances de TOXIN 32
Provenance – (in the Beyond 2022 project)
Cette image, développée dans un autre
projet, montre comment les graphes
nommés peuvent être utilisés pour
séparer et gérer différentes
interprétations dans un graphe de
connaissances.
Référence : C. Debruyne, G. Munnelly, L. Kilgallon,
D. O'Sullivan, and P. Crooks. Creating a knowledge
graph for ireland's lost history: Knowledge
engineering and curation in the beyond 2022
project. ACM Journal on Computing and Cultural
Heritage, 15(2):25:1-25:25, 2022
33. Le graphe de connaissances de TOXIN 33
▶ Les GDCs peuvent résoudre de nombreux objectifs de TOXIN
▶ Mais les technologies GCD sont difficiles (à apprendre, à utiliser, à mettre
en œuvre, ...)
▶ Le développement d'outils dédiés peut apporter une solution à ces
problèmes, et nous l'avons démontré dans le cadre de ce projet.
Résumé
34. Merci !
Pour des questions ou intéressés par une éventuelle collaboration : c.debruyne@uliege.be
Le graphe de connaissances de TOXIN 34
35. ▶ A. Hogan, E. Blomqvist, M. Cochez, C. d'Amato, G. de Melo, C. Gutierrez, J. E. Labra Gayo, S. Kirrane, S. Neumaier, A. Polleres,
R. Navigli, A.-C. Ngonga Ngomo, S. M. Rashid, A. Rula, L. Schmelzeisen, J. F. Sequeda, S. Staab, A. Zimmermann: Knowledge
Graphs. CoRR abs/2003.02320 (2020)
▶ J. Z. Pan, G. Vetere, J. M. Gómez-Pérez, H. Wu: Exploiting Linked Data and Knowledge Graphs in Large Organisations. Springer
2017, ISBN 978-3-319-45652-2
- R. Denaux, Y. Ren, B. Villazón-Terrazas, P. Alexopoulos, A. Faraotti, H. Wu: Knowledge Architecture for Organisations.
Exploiting Linked Data and Knowledge Graphs in Large Organisations 2017: 57-84
▶ Audrey Sanctorum, Jonathan Riggio, Jan Maushagen, Sara Sepehri, Emma Arnesdotter, Mona Delagrange, Joery De Kock,
Tamara Vanhaecke, Christophe Debruyne & Olga De Troyer (2022) End-user engineering of ontology-based knowledge bases,
Behaviour & Information Technology, 41:9, 1811-1829, DOI: 10.1080/0144929X.2022.2092032
Sources
Le graphe de connaissances de TOXIN 35