SlideShare a Scribd company logo
1 of 32
Intégration des facteurs temps et autorité
   sociale dans un modèle bayésien de
           recherche de tweets

  Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem
  IRIT, Université Paul Sabatier
Modèle bayésien de recherche de tweets

     Plan

1.   Service de microblogage
2.   Recherche des tweets
3.   Topologie du réseau bayésien
4.   Estimation des probabilités conditionnelles
5.   Evaluation expérimentale
6.   Conclusion et perspectives




                                                   2
Service de microblogage

        Microblog?

“   Un service de microblogage est à la fois un moyen de
    communication et un système de collaboration qui permet le
    partage et la diffusion des messages textuels. Il permet aux
    utilisateurs de communiquer des informations sur leurs statuts,

                                                       ”
    activités, pensées et opinions [Java et al.2009].

• Article de microblog
    –   Court (140 caractères)
                                      1 milliards   Publications par semaine
    –   Soumis en temps réel           50 millions Publications par jour
    –   Motivation sociale              177 million Publications en mars 2011
    –   Appareil mobile              +106 millions Utilisateurs

                                                                                3
Service de microblogage

          Tweet, retweet et hashtag ?

“
    Jack Dorsey 21 Mars 06  1ier Tweet
inviting coworkers                                                           #oilspill


“
    Stephen Colbert 21 Juin 2010  Golden Tweet Award 2010
In honor of oil-soaked birds, 'tweets' are now 'gurgles. http://bit.ly/cIhZNf



“
    Wendy's 8 Juin 2011  Golden Tweet Award 2011
RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd




                  “
                       CORIA11 16 mars 2010
                   CORIA 2011 : Université d'Avignon #CORIA11 http://yfrog.com/h3y




                                   ““
                                      MohBoughanem 17 Mars 2010
                                          MohBoughanem      CORIA11 17 Mars
                                    @coria2011 bien visualisé, vite trouvé2010
                                          @coria2011 bien visualisé, vite trouvé         4
Service de microblogage

Réseau social d’information




                              5
Recherche des tweets

       RI dans les microblogs

• Utilisateur submergé par l’énorme quantité des tweets
   – Flux soutenu des publications
   – Enorme quantité de données
   – Diverses sources d’information
       Difficulté d'accès aux publications intéressantes

• Les tâches de la RI dans les microblogs
   –   Recherche de personnes et suggestion des abonnements
   –   Extraction des tendances
   –   La recherche d’opinions
   –   La recherche de tweets
                                                              6
Recherche des tweets

        Recherche de tweets

“   tâche de recherche en temps réel où l'utilisateur souhaite accéder
    à l'information la plus récente, mais aussi la plus pertinente à
    une requête (Ounis et al., 2011).
                                     ”
“   Recherche ad-hoc où le besoin en information est représenté par
    une requête à un moment spécifique (Ounis et al., 2011).
                                                             ”
• Objectifs et utilité
    –   Obtenir une information crédible et précise
    –   Accéder aux dernières actualités en temps réel
    –   Suivre un évènement à distance
    –   Collecter divers points de vue
                                                                         7
Recherche des tweets

     Synthèse des travaux

1. Contexte spatio-temporel
 TwitterStand (Sankaranarayanan J. et al, 2009)   TweetSieve (Grinev M et al, 2009)




2. Caractéristiques des microblogs
   – Abonnements, tweets, retweets, réponses, hashtags, URLs
   – Combinaison linéaire (Nagmoti et al., 2010)
   – Apprentissage de fonctions d'ordonnancement (Duan Y et
      al., 2010)
                                                                                      8
Recherche des tweets

    Synthèse des travaux

3. La structure du réseau social
   – Indegree, Retweet et Mention influence (Cha et al.,
     2010).,TweetRank, FollowerRank (Nagmoti et al., 2010).
   – Autorité (Kwak et al., 2010)
   – Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010),
     Popularité (Duan et al.,2010)




                                                                       9
Recherche des tweets

        Contributions
                                         Thématique
•    Facteurs de pertinence
    –     Occurrence des termes
    –     Magnitude temporelle
    –     Influence sociale




                                  Temporelle   Sociale
• Réseau Bayésien de croyance
    (Silva et al., 2000)


                                                         10
Topologie du réseau bayésien

        Requête, termes, configurations

•    Nœud requête q  0,1           
    – événements q q
                  :  ,
• Termes
    –     l’univers de discours : U  k1 , k2 ,..., kn
    –     variable aléatoire : ki   ,1
                                      0
    –     évènements: ki , ki       
    –     configuration des termes k
         exemple :      k1 , k 2
        
        k   k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 )
             (
                                                               11
Topologie du réseau bayésien

   Tweets

• Nœud tweet t j
  – variable aléatoire : t j  0,1
  – événements: ti , ti


• Nœuds associés au tweet t j
  – évidence thématique : t kj
  – évidence temporelle : t oj
  – évidence sociale : t sj

                                       12
Topologie du réseau bayésien

   Périodes, blogueurs

• Nœud Période oe
  – variable aléatoire : oe  0,1
  – évènements : oe , oe
                                               oe           temps (t )

                                         t                 t
                                  o                o 
                                   e
                                         2            e
                                                            2

• Nœud Blogueur u f
  – Variable aléatoire : u f  0,1
  – Evénements : u f , u f
                                                                      13
Topologie du réseau bayésien

      Réseau bayésien
            q



k1         k2        k3




                                          o1              o2               u1         u1




tk1        tk2       tk3
                               to3             to2        to3        ts1        ts2   ts3




                                     t1              t2         t3                          14
Estimation des probabilités conditionnelles

      Évaluation de la requête
                                                                
            q
                               P(t j | q)   P(q | k ) P(t j | k )P(k )
                                             
                                                 k
                                                                                          
k1          k2        k3       P(t j | q)   P(q | k ) P(tkj | k )P(toj | k ) P(t sj | k ) P(k )
                                             
                                                 k




                                           o1              o2               u1            u1




tk1        tk2        tk3
                                to3             to2        to3        ts1        ts2      ts3




                                      t1              t2         t3                             15
Estimation des probabilités conditionnelles

       Configuration des termes
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k




       1
P(k )  n
       2




                                                                      16
Estimation des probabilités conditionnelles

       Requête
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k



                                                          
        1,                 si      on(ki , q)  on(ki , k ), ki
 P(q | k )  
             0,              sin on




                                                                      17
Estimation des probabilités conditionnelles

       Tweet (évidence thématique)
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k




              1                        tf ki ,t j  
P(t kj | k )  
               k
                              
                                           tf ki ,t j
                          ki k t j


                                               1
                                            0,8                                a=0,1
                                            0,6                                a=0,25
                                            0,4                                a=0,5
                                                                               a=0,75
                                            0,2
                                                                               a=1
                                               0
                                                                                       18
                                                   0                  5   10
Estimation des probabilités conditionnelles

       Tweet (évidence temporelle)
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k


                                                          
P(toj | k )  P(toj | oe ) P(oe | k )  P(toj | oe ) P(oe | k )



                      1   oe (t j )
P(toj | oe ) 
                            (oe )




                                                                      19
Estimation des probabilités conditionnelles

       Période
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k


                                 
P(toj | k )  P(toj | oe ) P(oe | k )

                                                  tweets

                            df    ki ,oe
                                                30

                                                20
                     ki ,on( ki , k ) 1
P(oe | k ) 
                               df ki
                                                                                           k1
                                                10
                                                                                           t2
                                
                       ki ,on( ki , k ) 1       0
                                                      1                               termes
                                                              2       3   4       5
                                                                          temps

                                                                                           20
Estimation des probabilités conditionnelles

       Tweet (évidence sociale)
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k


                                                              
P(tsj | k )  P(tsj | u f ) P(u f | k )  P(tsj | u f ) P(u f | k )


                    1
P(t sj | u f ) 
                  (u f )




                                                                      21
Estimation de la pertinence

            Blogueur
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
                   k


                                     
P(t sj | k )  P(t sj | u f ) P(u f | k )

        
P(u f | k)  P(u f )  Inf (u f )
                                                                            U3
Calcule de PageRank sur le réseau de retweet
                                                                  u1
               1                                Inf Gk 1 (ui )
 Inf (ui )  d
     G
      k
                  (1  d )  w j ,i                                   u2
               U           u j ,e ( u j ,ui )E   O(u j )
                                                                            u4

             (u j )   (u j )
 w j ,i 
                  (u j )
                                                                                 22
Évaluation expérimentale

    TREC Microblog 2011

• Collection de tweets
   Tweets           16 141 812     Blogueurs                               5 356 432
   Retweets          1 128 179     Relations des retweets                  1 060 551
   Tweet             1 860 112     Réseau social des retweets: nœuds       5 495 081
   Termes            7 781 775     Réseau social des retweets: arcs        1 024 914
   Hashtags           455 179      Composante géante                         11.12%


       Fréquence des termes            Hashtags                 Longueur (termes)

                       1.5E8                      1.5E 7                          1.5E 6




   0            5          10 0            5           10   0                20
                                                                                           23
         Distributions des fréquences, des hashtags et des longueurs des tweets
Évaluation expérimentale

        TREC Microblog 2011
•   Tâche de «Recherche en temps réel » (49 requêtes)
    –     Tweets les plus récents.
    –     Tweets postérieurs à la date de la requête.
    –     Tweets triés par ordre chronologique inverse.
    –     Tweets édités; Tweets en anglais.
•   Classement des systèmes (184 systèmes )
    –     Type de collection (HTML ou JSON).
    –     Données externes (Web, blogs…etc.).
    –     Information antérieur à la date de la requête.
•   Mesures d’évaluation
    –     p@30 (officielle)
    –     MAP
    –     ALL Rel, High Rel
                                                           24
Évaluation expérimentale

        Indexation et Filtrage
•   Plateforme NESTOR
    –     Recherche en temps réel
    –     Détection des mentions, des hashtags et des retweets en
          forme déclarative « RT @user »
    –     Indentification des langues et tokenisation multilingue
    –     Extraction et analyse des réseaux sociaux
    –     etc.
•   Filtrage des tweets
    –     Supprimer les tweets dans une langue autre que l’anglais
    –     Supprimer les retweets et les tweets de conversation
    –     Supprimer les tweets au-delà de la 30ème position
                                                                     25
Évaluation expérimentale

          Modèles de référence
BNTS                 Notre modèle bayésien de croyance pour le recherche des tweets
BNTS-K               Modèle BNTS, composantes temporelle et sociale désactivées
BNTS.KO              Modèle BNTS, composante sociale désactivée
BNTS.KS              Modèle BNTS, composante temporelle désactivée
Nestor          * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012)
isiFDL          * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le
                   classement de TREC Microblog 2011 (Metzler et al., 2011)
DFReeKLIM30     * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le
                   classement de TREC Microblog 2011 (Amati et al., 2011)
Disjunctive     * Modèle thématique disjonctif basé sur le système de RI Lucene
BM25                 Modèle thématique d’Okapi BM25

 Seuil à 30 tweets;  Seuil automatique;  Aucun Seuil ; * Résulats officiels




                                                                                                26
Évaluation expérimentale

      Paramétrage du modèle

•    Importance des fréquences des termes (BNTS.K)
    p @ 30
                                                                                 1                 tf ki ,t j  
                                                                                         
    0,35
                                                                   P(t kj | k )          
     0,3                                                                          k   ki k t j      tf ki ,t j

    0,25

     0,2

    0,15

     0,1

    0,05

      0
           0   0,1   0,2   0,3   0,4       0,5   0,6   0,7   0,8   0,9     1

                                                                                                                   27
Évaluation expérimentale

               Paramétrage du modèle

 •             Taille de la fenêtre temporelle (BNTS.KO)
p @ 30
  0,32
                                                                           t      t 
                                                                oe :  oe  , oe  
 0,315                                                                     2       2

  0,31


 0,305


     0,3


 0,295

                                                                                 jours
  0,29

           0     1   2    3   4   5    6   7    8   9   10 11 12 13 14 15 16 17
                                                                                           28
                                               t
Évaluation expérimentale

         Facteurs de pertinence
p @ 30             BNTS        BNTS.K             BNTS.KO             BNTS.KS
  1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
  0
      Toutes les requêtes        MB001                 MB010                    MB027
                             “BBC World Service     "Egyptian protesters    "Reduce energy   29
                                 staff cuts”          attack museum"         consumption"
Évaluation expérimentale

         Facteurs de pertinence
       isiFDL   DFReeKLIM30     BNTS    Médiane   Nestor   BM25   Disjunctive
 0,5

0,45

 0,4

0,35

 0,3

0,25

 0,2

0,15

 0,1

0,05                         * *** ***
        −30% −28%     24%   57% 180% 223%     −17% −32%     12% 22%   5% 13%
  0
                     p@30                                  MAP
                                                                                30
Modèle de recherche de tweets

        Conclusion et perspectives
•   Modèle de recherche de tweets
    –     Évidence thématique
    –     Évidence sociale
    –     Évidence temporelle
•   Intégration des facteurs de pertinence dans un réseau
    bayésien de croyance
•   Gain de 24% par rapport à la médiane TREC‘11
•   Perspectives
    –     Détecter automatiquement la taille de la fenêtre temporelle
    –     Adapter la combinaison des différentes sources d’évidence
          selon la nature de la requête

                                                                        31
Merci pour votre attention!




       http://twitter.com/amjedbj

More Related Content

Viewers also liked

Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information SocialeIsmail BADACHE
 
Master Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de RijkeMaster Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de RijkeMedia Perspectives
 
Rethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed SemanticRethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed SemanticAlexandre Passant
 
Web-scale semantic search
Web-scale semantic searchWeb-scale semantic search
Web-scale semantic searchEdgar Meij
 
(Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011](Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011]Guillaume Cabanac
 
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociauxBarometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociauxHelloWork
 
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Lamjed Ben Jabeur
 
Moederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het LabMoederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het LabMedia Perspectives
 
Recomendación película: Los goonies
Recomendación película: Los gooniesRecomendación película: Los goonies
Recomendación película: Los gooniesantorome3
 
Mod 3
Mod 3Mod 3
Mod 3cefic
 
La performance de mon site internet
La performance de mon site internetLa performance de mon site internet
La performance de mon site internetotlcf
 
Cefic.redac. de inf. modulo 4
Cefic.redac. de inf.   modulo 4Cefic.redac. de inf.   modulo 4
Cefic.redac. de inf. modulo 4cefic
 
Dr.villasante
Dr.villasanteDr.villasante
Dr.villasantecefic
 
Dr. felix
Dr. felixDr. felix
Dr. felixcefic
 

Viewers also liked (20)

Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information Sociale
 
Master Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de RijkeMaster Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de Rijke
 
Rethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed SemanticRethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed Semantic
 
Web-scale semantic search
Web-scale semantic searchWeb-scale semantic search
Web-scale semantic search
 
Clustering
ClusteringClustering
Clustering
 
(Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011](Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011]
 
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociauxBarometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
 
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
 
Moederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het LabMoederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het Lab
 
Ch02 seance01-diapos
Ch02 seance01-diaposCh02 seance01-diapos
Ch02 seance01-diapos
 
Recomendación película: Los goonies
Recomendación película: Los gooniesRecomendación película: Los goonies
Recomendación película: Los goonies
 
Mod 3
Mod 3Mod 3
Mod 3
 
La performance de mon site internet
La performance de mon site internetLa performance de mon site internet
La performance de mon site internet
 
Cefic.redac. de inf. modulo 4
Cefic.redac. de inf.   modulo 4Cefic.redac. de inf.   modulo 4
Cefic.redac. de inf. modulo 4
 
Dr.villasante
Dr.villasanteDr.villasante
Dr.villasante
 
Ppt ag 2011 rh-modif regl-tarifs
Ppt ag 2011 rh-modif regl-tarifsPpt ag 2011 rh-modif regl-tarifs
Ppt ag 2011 rh-modif regl-tarifs
 
Bkb Flash Labelvie 02 04 2010
Bkb Flash Labelvie 02 04 2010Bkb Flash Labelvie 02 04 2010
Bkb Flash Labelvie 02 04 2010
 
Kit de jeu
Kit de jeuKit de jeu
Kit de jeu
 
Dr. felix
Dr. felixDr. felix
Dr. felix
 
WebQuest
WebQuestWebQuest
WebQuest
 

More from Lamjed Ben Jabeur

Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Lamjed Ben Jabeur
 
IRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queriesIRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queriesLamjed Ben Jabeur
 
Challenges of managing Data Science Project
Challenges of managing Data Science ProjectChallenges of managing Data Science Project
Challenges of managing Data Science ProjectLamjed Ben Jabeur
 
Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Lamjed Ben Jabeur
 
A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...Lamjed Ben Jabeur
 
An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...Lamjed Ben Jabeur
 

More from Lamjed Ben Jabeur (6)

Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
 
IRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queriesIRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queries
 
Challenges of managing Data Science Project
Challenges of managing Data Science ProjectChallenges of managing Data Science Project
Challenges of managing Data Science Project
 
Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...
 
A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...
 
An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...
 

Recently uploaded

MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 

Recently uploaded (16)

MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 

Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

  • 1. Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem IRIT, Université Paul Sabatier
  • 2. Modèle bayésien de recherche de tweets Plan 1. Service de microblogage 2. Recherche des tweets 3. Topologie du réseau bayésien 4. Estimation des probabilités conditionnelles 5. Evaluation expérimentale 6. Conclusion et perspectives 2
  • 3. Service de microblogage Microblog? “ Un service de microblogage est à la fois un moyen de communication et un système de collaboration qui permet le partage et la diffusion des messages textuels. Il permet aux utilisateurs de communiquer des informations sur leurs statuts, ” activités, pensées et opinions [Java et al.2009]. • Article de microblog – Court (140 caractères) 1 milliards Publications par semaine – Soumis en temps réel 50 millions Publications par jour – Motivation sociale 177 million Publications en mars 2011 – Appareil mobile +106 millions Utilisateurs 3
  • 4. Service de microblogage Tweet, retweet et hashtag ? “ Jack Dorsey 21 Mars 06  1ier Tweet inviting coworkers #oilspill “ Stephen Colbert 21 Juin 2010  Golden Tweet Award 2010 In honor of oil-soaked birds, 'tweets' are now 'gurgles. http://bit.ly/cIhZNf “ Wendy's 8 Juin 2011  Golden Tweet Award 2011 RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd “ CORIA11 16 mars 2010 CORIA 2011 : Université d'Avignon #CORIA11 http://yfrog.com/h3y ““ MohBoughanem 17 Mars 2010 MohBoughanem CORIA11 17 Mars @coria2011 bien visualisé, vite trouvé2010 @coria2011 bien visualisé, vite trouvé 4
  • 5. Service de microblogage Réseau social d’information 5
  • 6. Recherche des tweets RI dans les microblogs • Utilisateur submergé par l’énorme quantité des tweets – Flux soutenu des publications – Enorme quantité de données – Diverses sources d’information Difficulté d'accès aux publications intéressantes • Les tâches de la RI dans les microblogs – Recherche de personnes et suggestion des abonnements – Extraction des tendances – La recherche d’opinions – La recherche de tweets 6
  • 7. Recherche des tweets Recherche de tweets “ tâche de recherche en temps réel où l'utilisateur souhaite accéder à l'information la plus récente, mais aussi la plus pertinente à une requête (Ounis et al., 2011). ” “ Recherche ad-hoc où le besoin en information est représenté par une requête à un moment spécifique (Ounis et al., 2011). ” • Objectifs et utilité – Obtenir une information crédible et précise – Accéder aux dernières actualités en temps réel – Suivre un évènement à distance – Collecter divers points de vue 7
  • 8. Recherche des tweets Synthèse des travaux 1. Contexte spatio-temporel TwitterStand (Sankaranarayanan J. et al, 2009) TweetSieve (Grinev M et al, 2009) 2. Caractéristiques des microblogs – Abonnements, tweets, retweets, réponses, hashtags, URLs – Combinaison linéaire (Nagmoti et al., 2010) – Apprentissage de fonctions d'ordonnancement (Duan Y et al., 2010) 8
  • 9. Recherche des tweets Synthèse des travaux 3. La structure du réseau social – Indegree, Retweet et Mention influence (Cha et al., 2010).,TweetRank, FollowerRank (Nagmoti et al., 2010). – Autorité (Kwak et al., 2010) – Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010), Popularité (Duan et al.,2010) 9
  • 10. Recherche des tweets Contributions Thématique • Facteurs de pertinence – Occurrence des termes – Magnitude temporelle – Influence sociale Temporelle Sociale • Réseau Bayésien de croyance (Silva et al., 2000) 10
  • 11. Topologie du réseau bayésien Requête, termes, configurations • Nœud requête q  0,1   – événements q q : , • Termes – l’univers de discours : U  k1 , k2 ,..., kn – variable aléatoire : ki   ,1 0 – évènements: ki , ki  – configuration des termes k exemple : k1 , k 2  k   k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 ) ( 11
  • 12. Topologie du réseau bayésien Tweets • Nœud tweet t j – variable aléatoire : t j  0,1 – événements: ti , ti • Nœuds associés au tweet t j – évidence thématique : t kj – évidence temporelle : t oj – évidence sociale : t sj 12
  • 13. Topologie du réseau bayésien Périodes, blogueurs • Nœud Période oe – variable aléatoire : oe  0,1 – évènements : oe , oe  oe temps (t ) t t o  o  e 2 e 2 • Nœud Blogueur u f – Variable aléatoire : u f  0,1 – Evénements : u f , u f 13
  • 14. Topologie du réseau bayésien Réseau bayésien q k1 k2 k3 o1 o2 u1 u1 tk1 tk2 tk3 to3 to2 to3 ts1 ts2 ts3 t1 t2 t3 14
  • 15. Estimation des probabilités conditionnelles Évaluation de la requête    q P(t j | q)   P(q | k ) P(t j | k )P(k )  k      k1 k2 k3 P(t j | q)   P(q | k ) P(tkj | k )P(toj | k ) P(t sj | k ) P(k )  k o1 o2 u1 u1 tk1 tk2 tk3 to3 to2 to3 ts1 ts2 ts3 t1 t2 t3 15
  • 16. Estimation des probabilités conditionnelles Configuration des termes      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  1 P(k )  n 2 16
  • 17. Estimation des probabilités conditionnelles Requête      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   1, si on(ki , q)  on(ki , k ), ki P(q | k )   0, sin on 17
  • 18. Estimation des probabilités conditionnelles Tweet (évidence thématique)      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  1 tf ki ,t j   P(t kj | k )   k   tf ki ,t j ki k t j 1 0,8 a=0,1 0,6 a=0,25 0,4 a=0,5 a=0,75 0,2 a=1 0 18 0 5 10
  • 19. Estimation des probabilités conditionnelles Tweet (évidence temporelle)      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k    P(toj | k )  P(toj | oe ) P(oe | k )  P(toj | oe ) P(oe | k ) 1   oe (t j ) P(toj | oe )   (oe ) 19
  • 20. Estimation des probabilités conditionnelles Période      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   P(toj | k )  P(toj | oe ) P(oe | k ) tweets   df  ki ,oe 30 20 ki ,on( ki , k ) 1 P(oe | k )   df ki k1 10 t2  ki ,on( ki , k ) 1 0 1 termes 2 3 4 5 temps 20
  • 21. Estimation des probabilités conditionnelles Tweet (évidence sociale)      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k    P(tsj | k )  P(tsj | u f ) P(u f | k )  P(tsj | u f ) P(u f | k ) 1 P(t sj | u f )   (u f ) 21
  • 22. Estimation de la pertinence Blogueur      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   P(t sj | k )  P(t sj | u f ) P(u f | k )  P(u f | k)  P(u f )  Inf (u f ) U3 Calcule de PageRank sur le réseau de retweet u1 1 Inf Gk 1 (ui ) Inf (ui )  d G k  (1  d )  w j ,i u2 U u j ,e ( u j ,ui )E O(u j ) u4  (u j )   (u j ) w j ,i   (u j ) 22
  • 23. Évaluation expérimentale TREC Microblog 2011 • Collection de tweets Tweets 16 141 812 Blogueurs 5 356 432 Retweets 1 128 179 Relations des retweets 1 060 551 Tweet 1 860 112 Réseau social des retweets: nœuds 5 495 081 Termes 7 781 775 Réseau social des retweets: arcs 1 024 914 Hashtags 455 179 Composante géante 11.12% Fréquence des termes Hashtags Longueur (termes) 1.5E8 1.5E 7 1.5E 6 0 5 10 0 5 10 0 20 23 Distributions des fréquences, des hashtags et des longueurs des tweets
  • 24. Évaluation expérimentale TREC Microblog 2011 • Tâche de «Recherche en temps réel » (49 requêtes) – Tweets les plus récents. – Tweets postérieurs à la date de la requête. – Tweets triés par ordre chronologique inverse. – Tweets édités; Tweets en anglais. • Classement des systèmes (184 systèmes ) – Type de collection (HTML ou JSON). – Données externes (Web, blogs…etc.). – Information antérieur à la date de la requête. • Mesures d’évaluation – p@30 (officielle) – MAP – ALL Rel, High Rel 24
  • 25. Évaluation expérimentale Indexation et Filtrage • Plateforme NESTOR – Recherche en temps réel – Détection des mentions, des hashtags et des retweets en forme déclarative « RT @user » – Indentification des langues et tokenisation multilingue – Extraction et analyse des réseaux sociaux – etc. • Filtrage des tweets – Supprimer les tweets dans une langue autre que l’anglais – Supprimer les retweets et les tweets de conversation – Supprimer les tweets au-delà de la 30ème position 25
  • 26. Évaluation expérimentale Modèles de référence BNTS  Notre modèle bayésien de croyance pour le recherche des tweets BNTS-K  Modèle BNTS, composantes temporelle et sociale désactivées BNTS.KO  Modèle BNTS, composante sociale désactivée BNTS.KS  Modèle BNTS, composante temporelle désactivée Nestor  * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012) isiFDL  * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le classement de TREC Microblog 2011 (Metzler et al., 2011) DFReeKLIM30  * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le classement de TREC Microblog 2011 (Amati et al., 2011) Disjunctive  * Modèle thématique disjonctif basé sur le système de RI Lucene BM25  Modèle thématique d’Okapi BM25  Seuil à 30 tweets;  Seuil automatique;  Aucun Seuil ; * Résulats officiels 26
  • 27. Évaluation expérimentale Paramétrage du modèle • Importance des fréquences des termes (BNTS.K) p @ 30  1 tf ki ,t j    0,35 P(t kj | k )    0,3 k ki k t j tf ki ,t j 0,25 0,2 0,15 0,1 0,05 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1  27
  • 28. Évaluation expérimentale Paramétrage du modèle • Taille de la fenêtre temporelle (BNTS.KO) p @ 30 0,32  t t  oe :  oe  , oe   0,315  2 2 0,31 0,305 0,3 0,295 jours 0,29 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 28 t
  • 29. Évaluation expérimentale Facteurs de pertinence p @ 30 BNTS BNTS.K BNTS.KO BNTS.KS 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Toutes les requêtes MB001 MB010 MB027 “BBC World Service "Egyptian protesters "Reduce energy 29 staff cuts” attack museum" consumption"
  • 30. Évaluation expérimentale Facteurs de pertinence isiFDL DFReeKLIM30 BNTS Médiane Nestor BM25 Disjunctive 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 * *** *** −30% −28% 24% 57% 180% 223% −17% −32% 12% 22% 5% 13% 0 p@30 MAP 30
  • 31. Modèle de recherche de tweets Conclusion et perspectives • Modèle de recherche de tweets – Évidence thématique – Évidence sociale – Évidence temporelle • Intégration des facteurs de pertinence dans un réseau bayésien de croyance • Gain de 24% par rapport à la médiane TREC‘11 • Perspectives – Détecter automatiquement la taille de la fenêtre temporelle – Adapter la combinaison des différentes sources d’évidence selon la nature de la requête 31
  • 32. Merci pour votre attention! http://twitter.com/amjedbj