Explorer des actualités multimédia dans le Web de données
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
1. Gradients de prototypicalité appliqués à la
personnalisation d'ontologies
X. AIME, F. FURST, P. KUNTZ & F. TRICHET
xaime@tennaxia.com
frederic.furst@u-picardie.fr
pascale.kuntz,francky.trichet@univ-nantes.fr
LINA - UMR CNRS 6241 – Université de Nantes – FRANCE
MIS – Université d’Amiens – FRANCE
TENNAXIA – Paris – FRANCE
3. Aujourd’hui – Recherche d’information
Pas d’extension de requêtes
Aucun document sur Pentyne, Hexyne, substance dangereuse
Substance dangereuse
Alkyne
Pentyne Hexyne (C6H10)
IC'09 – Hammamet, Mai 2009 - 3/32
4. Ce soir – Recherche d’information
T
We ags
Pas d’extension de requêtes b2
.0
Documents sur Pentyne, Hexyne, C6H10 , etc.
MAIS mêmes résultats
pour un chimiste organique
et un consultant en risques chimiques utilisateurs
MAIS résultats sur “Alkyne” le lapin
IC'09 – Hammamet, Mai 2009 - 4/32
5. Demain – Recherche d’information
Extension de requêtes au moyen d’une ontologie de la chimie
Documents sur Pentyne, Hexyne , C6H10 , etc.
Substance dangereuse
MAIS mêmes résultats Alkyne
pour un chimiste organique Pentyne Hexyne (C6H10)
et un consultant en risques chimiques
IC'09 – Hammamet, Mai 2009 - 5/32
7. Situation (prototype theory [Rosch,73])
Deux observations :
Pour une communauté C Ontol
Verna ogie Perso
culair nnalis
Pour un domaine D e de D é
omain e
e
Dans un contexte E
tous les sous-concepts d’une catégorie n’ont pas la
même représentativité conceptuelle ;
tous les termes dénotant un concept n’ont pas la
même représentativité lexicale.
IC'09 – Hammamet, Mai 2009 - 7/32
9. En résumé
Pour un utilisateur confronté à une ontologie de domaine
Pour chaque concept, il est possible de classer :
les sous-concepts par ordre de typicalité (conceptuelle)
les termes par ordre de typicalité (lexicale)
Alkynes Alkynes
0.3
0.2
0.6 Hexyne
0.5 Hexyne 0.9
0.9
Pentyne Ethyne
Acetylene Pentyne Ethyne , 200-816-9 , 74-86-2, Acetylene,
74-86-2, Acetylene, C2H2, Ethyne, C2H2
200-816-9
IC'09 – Hammamet, Mai 2009 - 9/32
10. Personnalisation des ontologies
Entrée : une ontologie de domaine (OWL 1.0)
Sortie : une ontologie de domaine enrichie des
valeurs de
Prototypicalité Conceptuelle pour chaque lien is-a (défini
entre deux concepts)
0.4 0.1 0.9
Prototypicalité Lexicale pour chaque terme dénotant un
concept (pour chaque concept)
A B C D E
IC'09 – Hammamet, Mai 2009 - 10/32
13. Approche sémiotique des gradients
Intension
( propriétés )
Consultant en
risques chimiques
Expression Extension
( termes ) ( instances )
IC'09 – Hammamet, Mai 2009 - 13/32
14. Gradient de Prototypicalité Conceptuelle
fondé sur une approche sémiotique
SPG(cp,cf) = ( α . intensionnel (cp,cf)
+ β . expressionnel (cp,cf)
+ γ. extensionnel (cp,cf) ) δ
Avec :
α + β + γ = 1, α ∈ [0,1], β ∈ [0,1], γ∈ [0,1]
α , β , γ pondération de l’influence des 3 composantes
δ ∈ ]0,+ ∝ [ pondération de l’état émotionnel
IC'09 – Hammamet, Mai 2009 - 14/32
15. Composante Intensionnelle (1/6)
Pondération des propriétés (Au Yeung 2006)
Propriété “peut flotter”
Comment déterminer l’importance de cette propriété
lors de la définition de ces concepts ?
IC'09 – Hammamet, Mai 2009 - 15/32
21. Composante Expressionnelle (1/2)
Typicalité par le corpus
Fondé sur le nombre d’occurrences des termes
n
Expression (cf ,cp) = Information ( cf )
Information ( cp )
Avec :
– Information(c) le Contenu en Information du concept c.
IC'09 – Hammamet, Mai 2009 - 21/32
22. Composante Expressionnelle (2/2)
Typicalité par le corpus n
Expressional (cf ,cp) = Information ( cf )
Information ( cp )
Avec :
– count ( term ) le nombre d’occurrences de term dans l’ensemble des documents
– N le nombre de termes total dans le corpus
– count (document , term) le nombre de documents où le terme apparaît
– count ( document ) le nombre de documents du corpus
– world ( c ) tous les termes concernant le concept c via la fonction ftermc et tous les sous-
concepts de sa descendance.
IC'09 – Hammamet, Mai 2009 - 22/32
23. Composante Extensionnelle
Typicalité par les instances
Fondée sur la quantité d’instances d’un concept
Extension (cf ,cp) = 1
1 – log countI ( cf )
countI ( cp )
Avec CountI (c) le nombre d’instances du concept c
cp
cf3
cf1 cf2
IC'09 – Hammamet, Mai 2009 - 23/32
24. Facteur émotionnel
delta < 1
S
P
G
delta > 1
alpha . intension + bêta . expression + gamma . extension
Un état positif dilue la typicalité sur les concepts les moins représentatifs
Un état négatif concentre la typicalité sur les concepts les plus représentatifs
IC'09 – Hammamet, Mai 2009 - 24/32
25. Gradient de Prototypicalité Lexicale
LPG (t , c) = 1
1 – log count ( t )
count ( ftermc(c) )
Avec :
– count ( t ) le nombre d’occurrences du terme t dans les documents ;
– count( ftermc (c) ) le nombre d’occurrences de tous les termes dénotant le
concept dans les documents.
IC'09 – Hammamet, Mai 2009 - 25/32
26. Web Ontology Langage (OWL)
Deux nouvelles propriétés :
xml:lpg & xml:cpg
<owl:Class rdf:ID=“organic_farming”>
<rdfs:label xml:lang=“EN” xml:lpg=1.0>organic farming</rdfs:label>
<rdfs:subClassOf rdf:resource=“#cultivation_system” xml:cpg=0.7/>
</owl:Class>
IC'09 – Hammamet, Mai 2009 - 26/32
27. Logiciel TooPrag (1/3)
Tool dedicated to the Pragmatisation of Ontology
Entrée : une ontologie de domaine (OWL), un corpus de textes ou un index
Lucene.
IC'09 – Hammamet, Mai 2009 - 27/32
28. Logiciel TooPrag (2/3)
Sortie : une ontologie de domaine enrichie avec les valeurs de prototypicalité
conceptuelle et prototypicalité lexicale, enregistrée en OWL ou dans une base de
données relationnelle (MySQL).
IC'09 – Hammamet, Mai 2009 - 28/32
30. Expérimentations
Ontologie Tennaxia-HSE (dépôt INPI N322.408, 13 juin 2008) :
7400 concepts (prévision : près de 100.000 concepts), 20830 termes
Corpus de 2500 textes réglementaires (règlements, lois, directives…)
IC'09 – Hammamet, Mai 2009 - 30/32
31. Limites
Composante Intensionnelle
La pondération des propriétés peut s’avérer chronophage (pour les
ontologies volumineuses)
Composante Expressionnelle
Termes ambiguës
Contexte autour du terme (“non m1”, “opposé de m1”…)
Anaphores (“Pierre a une voiture, c’est la même que la mienne”)
Facteur Émotionnel
Pondération de l’état émotionnel de l’utilisateur
IC'09 – Hammamet, Mai 2009 - 31/32
32. Conclusion & perspectives
Les Ontologies Personnalisées Vernaculaires de Domaine sont définies
suivant :
Une spécificité à un endogroupe et à un domaine ;
Une dimension écologique ;
La prise en compte de l’état émotionnel de l’utilisateur.
Nos gradients peuvent être utiles dans plusieurs contextes :
Évaluation des ontologies ;
Analyse de corpus de textes ;
Recherche d’information sémantique
http://www.ethnosiris.com
IC'09 – Hammamet, Mai 2009 - 32/32
33. Gradients de prototypicalité appliqués à la
personnalisation d'ontologies
X. AIME, F. FURST, P. KUNTZ & F. TRICHET
xaime@tennaxia.com
frederic.furst@u-picardie.fr
pascale.kuntz,francky.trichet@univ-nantes.fr
LINA - UMR CNRS 6241 - Université de Nantes – FRANCE
MIS – Université d’Amiens – FRANCE
TENNAXIA – Paris – FRANCE