Analyse des sentiments cas twitter - univ ghardaia algerie

‫اجل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ه‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ر‬‫و‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫اجل‬ ‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ائ‬‫ز‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ر‬‫ـ‬‫ـ‬‫ـ‬‫الدمي‬ ‫ة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـق‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫اط‬‫ر‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـ‬‫ـ‬‫ـ‬‫ال‬ ‫ة‬‫ـ‬‫ـ‬‫ـ‬‫ش‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـع‬‫ـ‬‫ـ‬‫ـ‬‫ب‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ة‬
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE
‫ـ‬‫ت‬‫ال‬ ‫ارة‬‫ز‬‫و‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ال‬ ‫م‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ب‬‫ال‬ ‫و‬ ‫ايل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫الع‬ ‫حث‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ج‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـامعة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـردا‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫غ‬
Université de Ghardaia
‫ـا‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـوج‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ن‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ك‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ت‬‫ال‬‫و‬ ‫ـوم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ال‬ ‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ك‬
Faculté des Sciences et de Technologie
‫ـ‬‫س‬‫ق‬‫ـي‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫اآل‬ ‫االعالم‬ ‫و‬ ‫ياضيات‬‫ر‬‫ال‬ ‫ـم‬‫ـ‬
Département des Mathématiques et Informatique
MEMOIRE
Présenté pour l’obtention du diplôme de MASTER
En : Informatique
Spécialité : Systèmes Intelligents pour l'Extraction de Connaissances (SIEC)
Par : Soumia Elyakoute HERMA et Khadidja SAIFIA
Sujet
ANALYSE DES SENTIMENTS
CAS TWITTER
Soutenu publiquement, le 21/ Juin / 2016, devant le jury composé de :
M. Djelloul ZIADI Professeur Univ. Rouen-France Président
M. Slimane BELLAOUAR Maitre Assistant A Univ. Ghardaïa Encadreur
M. Slimane OULAD NAOUI Maitre Assistant A Univ. Ghardaïa Examinateur
M. Abderrahmane ADJILA Maitre Assistant B Univ. Ghardaïa Examinateur
Année Universitaire 2015/2016

Résumé
L’analyse des sentiments est une technologie d’analyse automatique des discours, écrits ou parlés
dans le but consiste à extraire des informations subjectives comme des jugements, des évaluations ou des
émotions pour détecter la polarité d’une opinion. L’importance de l’analyse des sentiments est présente dans
plusieurs domaines, à savoir politique, marketing, gestion de la réputation,... Dans ce mémoire, notre objectif
consiste à dévoiler les secrets d’un tel domaine en adoptant une approche pour l’apprentissage automatique.
Pour ce faire nous avons implémenté la méthode probabiliste Na¨ıve Bayes sur le corpus Neik Sander des
tweets. Nous avons considéré deux modèles de représentation de données, à savoir, le modèle booléen et un
autre modèle sémantique avec la pondération TF-IDF (Term Frequency - Inverse Document Freqency). Les
résultats obtenus en terme de précision, rappel et F1-mesure révèlent que la représentation avec un modèle
TF-IDF est mieux adaptée.
Mots-clés : Analyse des Sentiments, détection d’opinion, polarité, Na¨ıve Bayes, modèle booléen, TF-IDF,
Twitter.
Abstract
Sentiment Analysis is an automatic analysis technology of written or spoken speeches, aims to extract
subjective information like judgments, evaluations or emotions to detect the polarity of an opinion. The
importance of sentiment analysis is present in several fields, namely: politics, marketing, reputation manage-
ment, ... In this thesis, our objective is to reveal some secrets of this field by adopting a machine learning
approach. With this intention we implemented the Naive Bayes probabilistic method on the Neik Sander
corpora of tweets. We considered two data representation models, the Boolean model and a semantic model
with TF-IDF weighting. The obtained results in terms of precision, recall and, F1-score reveal that the
representation with a TF-IDF model is best placed.
Key words: Sentiment Analysis, opinion detection, polarity, Na¨ıve Bayes, Boolean model, TF-IDF, Twitter.

‘
©
jÊÓ
¦t
©
«

reÓñÊªÓ h
F
d
©
j

tƒd
©
¬‰¦îiF D e«ñÒ¦‚Ó ð

d euF ñ

tºÓ
©
àe¦» dñƒ D r
F
e¢
©
mÌ9d ÉtÊj

tË

étË

d etkF ñËñ
©
tº

u ù

¦ë
©
£dñ¦¦ªËd ÉtÊm

9
ú

©
¯ ©áÒº

u

é
©
®¦£eªËd Ét¦Êm

9

étÒë

d F eÓ ø

d€ ékF ñ

u ð

é

tuF e¢

®

tƒd
©

‚» ÉgF

f «e¦

‚ÖÏd ð

d

reÒtt

®

tËd D Ðe¾k

fd É

tÓ

ét«ñ
©
“ñÓ

éuF €e

®Ó €etF¦

t«euF ÈejF ÖÏd d
©
‰ë ¦ƒ
©

‚» ñë e
©
t
©
¯‰ë D

è»
©
‰ÖÏd è
©
‰¦ë ú

©
¯ FFF D

éª¦Ò‚Ëd

è€dˆd

D

‡uñ¦‚

(Ëd D

éƒet‚Ëe¿ D

rfemF
×

è

‰«
F

re

tuñ

u ©áÓ
©
€€‰
©
ueƒ ½ue
©
u

ret¢ªÓ

é«ñÒmF
×
úÎ« NaiveBayes

ét

ue’kfd

é

®u¢Ëd e
©
tÓ‰
©
j

tƒd ½Ë
©
ˆ ÉgF d ©áÓ F

éË

fd ÕÎª

u
l
F

9e

t
©
tËd F TF − IDF
rdˆ
©
®ÖÏd
©
àd
©
€ð

euF

ú

Ífˆ h
F
©
ˆñÖ
©
ß ð ù

®¢
©
tÖÏd h
F
©
ˆñÒ
©
tËd D eÒë D

ret¢ªÖÏd Ét

tÒ

tË
©á0gF
©
ˆñÖ
©
ß e
©
tËeÒª

tƒd

stk
ñm
©
9
úÎ« ÉÒªu TF − IDF h
F
©
ˆñÒ
©
tuF Ét

tÒ

tËd
©
à

d

s
©
®

‚» €et

®I
©
¯

d ð »
©
‰

tËdD

é

¯‰Ëd (ue

®ÖÏd ÈeÒª

tƒeuF eîhÊ« É’¦j

tÖÏd
F É
©
’
©
¯

d
F

0uñ

u D TF − IDF D ù

®¢
©
tÖÏd h
F
©
ˆñÒ
©
tËd D NaiveBayes D

é

tuF e¢

®

tƒd D ø

dËd
©

‚» D
©
£dñªËd ÉtÊm

9 X

ét

k e

t
©
®ÖÏ d

r eÒÊ¾Ë d

Dédicace
Je dédie ce travail:
A mon chère Père, qui est la lumière de ma vie,
A ma Mère Dieu ait son âme,
A Maman que Dieu lui garde,
A mes chères frères et seours, spécialement Saber et Islam,
A mes fidèles amis de proche ou de loin,
A tout qui porte le nom HERMA.
Soumia Yakoute

Dédicace
Je dédie ce modeste travail à :
grande mère Dieu ait son âme
Celle qui est plus cher que mon âme et mon sang, la lumière de mon chemin, À ma mère
adorée.
Mon cher père, qui m’a toujours encouragée et conseillée.
A mon frère : S.Ahmed
A mes soeurs: D.Sarah, H.Amel, B.Amina
A grande mère et très chers famille: B.Nour el houda, D.Badis ,Z.Rabah, S.houria,
S.Fatima, S.Fatiha.
A ma chère Tante : S.Houria
A ma cher Tonton : Dourroussi houssine
A tous les enseignants de l’informatique, Et tous les étudiants de l’informatique, en
particulier la promotion 2016.
A tous ceux qui portent les noms Saifia et Salah.
A toute personne utilisant ce document pour un bon usage.
Khadidja

Table des matière
LISTE DES TABLEAUX iv
LISTE DES FIGURES v
LISTE DES ALGORITHMES vi
REMERCIEMENT vii
INTRODUCTION GÉNÉRALE 1
1 PRELIMINAIRES 2
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Medias sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Le Traitement automatique des langues naturelles (TAL) . . . . . . . 3
1.1.3 Le Classifieur Na¨ıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Analyse des Sentiments et Domaines d’Applications . . . . . . . . . . . . . 9
1.2.1 Définitions de l’analyse des sentiments . . . . . . . . . . . . . . . . . 9
1.2.2 Domaines d’applications de l’analyse des sentiments . . . . . . . . . . 10
1.3 Sources des Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Twitter et tweet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Caractéristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . . . 13
ii

TABLE DES MATIÈRE TABLE DES MATIÈRE
2 ÉTAT DE L’ART 15
2.1 Approches de l’Analyse des Sentiments et la Détection d’Opinions . . . . . . 15
2.1.1 Approches d’apprentissage automatique . . . . . . . . . . . . . . . . . 15
2.1.2 Approche lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3 Approches hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Historique sur l’Analyse des Sentiments . . . . . . . . . . . . . . . . . . . . . 17
2.3 Travaux sur L’Analyse des Sentiments avec Twitter . . . . . . . . . . . . . . 18
2.3.1 Classification de sentiments . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Prédiction des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Détection des évènements . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Difficultés de la Fouille d’opinions et de l’Analyse des Sentiments . . . . . . 21
3 EXPÉRIMENTATION : APPRENTISSAGE ET TEST 22
3.1 Environnement de Travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1 Source des données (Data set) . . . . . . . . . . . . . . . . . . . . . . 24
3.2.2 Prétraitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3 Extraction et présentation des descripteurs . . . . . . . . . . . . . . . 29
3.2.4 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Phase de Test et Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Présentation des résultats et discussion . . . . . . . . . . . . . . . . . 32
CONCLUSION 34
BIBLIOGRAPHIE 35
iii

Liste des Tables
1.1 Exemple d’applcation de l’algorithme de Na¨ıve Bayes. . . . . . . . . . . . . . 8
3.1 Description du corpus Niek Sanders . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 A gauche -Emoticons Positive négative-, à droite -Abréviaton en Anglais- 26
3.3 Les formes contractés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Tweets avant et après le prétraitement . . . . . . . . . . . . . . . . . . . . . 29
3.5 Table de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Résultats du classifieur en méthode booléenne . . . . . . . . . . . . . . . . . 32
3.7 Résultats du classifieur en méthode de pondération TF-IDF . . . . . . . . . 33
iv

Liste des Figures
1.1 L’intuition du classifieur Multinomial Na¨ıve Bayes appliqué à des avis d’un
film dont leur position est ignorée (sac de mots) . . . . . . . . . . . . . . . . 4
3.1 Processus de l’apprentissage automatique . . . . . . . . . . . . . . . . . . . . 22
v

Liste des Algorithmes
1 Algorithme Train Na¨ıve Bayes(D,C) . . . . . . . . . . . . . . . . . . . . . . . 7
2 Algorithme Test Na¨ıve Bayes(testdoc, logprior, liklihood, C, V) . . . . . . . 7
3 Fonction getData pour récupéré le corpus . . . . . . . . . . . . . . . . . . . 25
4 Appelle et entrainement du classifieur NB . . . . . . . . . . . . . . . . . . . 31
vi

REMERCIEMENT
Au premier temps, nous remercions Allah qui nous a aidé à réaliser ce travail, et qui a
été avec nous en tout le moment.
Nous remercions également notre encadreur Monsieur Slimane BELLAOUAR pour l’aide
et les conseils concernant les missions évoquées dans ce Projet de fin d’étude, qu’il nous a
apporté lors des différents suivis.
Nous tenons à remercier Pr. Djelloul ZIADI, Mr. Slimane OULAD NAOUI, Toufik
GHARIB, ADJILA Abderrahmane, et les responsables de la formation Système Intelli-
gent pour Extraction des Connaissance ”SIEC”, pour avoir assuré cette formation, et toute
l’équipe pédagogique de département du Mathématiques et Informatique de notre université.
Nous adressons nos remerciements aux personnes de loin ou de proche qui nous ont aidé
dans la réalisation de ce mémoire.
vii

INTRODUCTION GÉNÉRALE
Avec l’avènement du web et l’explosion des sources des données telles que les sites
d’avis, les blogs et les microblogs est apparu la nécessité d’analyser des millions des postes,
de tweets ou d’avis afin de savoir ce que pensent les internautes. L’analyse des sentiments
est une technologie d’analyse automatique des discours, écrits ou parlés et d’en faire ressortir
les différentes opinions exprimées sur un sujet précis comme une marque, une actualité ou
un produit. L’importance de l’analyse des sentiments est présente dans plusieurs domaines,
à savoir politique, marketing, gestion de la réputation, ...
L’analyse des sentiments relève de plusieurs disciplines en l’occurrence d’une part du
traitement automatique du la langage naturel (Naturel Langage Processing) et d’autre part
de l’apprentissage automatique (Machine Learning).
Dans ce mémoire, notre objectif consiste à dévoiler les secrets de l’analyse des senti-
ments en adoptant une approche d’apprentissage automatique. Pour ce faire, nous avons
implémenté la méthode probabiliste Na¨ıve Bayes sur le corpus Neik Sander des tweets. Nous
avons considéré deux modèles de représentation de données, à savoir, le modèle booléen et
un autre modèle sémantique avec la pondération TF-IDF. Les résultats obtenus en terme
de précision, rappel et F1-mesure révèlent que la représentation avec un modèle TF-IDF est
mieux placée.
Le reste du mémoire est organisé en trois chapitres : nous consacrons un premier chapitre
à présenter des généralités sur le domaine d’analyse des sentiments en particulier Twitter
comme source d’opinions. Le second chapitre se focalise sur l’état de l’art de l’analyse
des sentiments, notamment les travaux inhérents à l’analyse des sentiments Twitter. Notre
troisième chapitre présente l’expérimention et la méthode Na¨ıve Bayes en considérant les
phases d’apprentissage et de test.
Nous concluons avec une synthèse de travail et des perspectives.
1

Chapter 1
PRELIMINAIRES
1.1 Généralités
Dans cette section, nous définissons quelques concepts de base importants utilisés dans ce
que suit.
1.1.1 Medias sociaux
Le terme média est le pluriel du mot latin medium qui signifie moyen, milieu ou lien.
En effet le terme lien exprime une relation ou une liaison entre les acteurs des médias. Par
conséquence les médias classique tels que la télévision, la presse et la radio peuvent être
considérés comme des medias sociaux puisqu’ils relient les hommes par informations [1].
Selon cette vision, l’expression médias sociaux regroupe sous la même enseigne une grande
variété de dispositifs, tels les blogs, les wiki, les sites réseaux socio-numérique (Facebook,
LinkedIn), les microblogues (Twitter, Jaiku), le bookmarking collectif, les partage de con-
tenus médiatique comme la musique, les photos et les vidéos [2].
Une définition technique purement informatique est présentée dans [3], Un groupe d’applications
en ligne qui se fondent sur l’idéologie et la technologie du Web 2.01
et permettent la création
et l’échange du contenu généré par les utilisateurs.
Le concept de médias sociaux se réfère donc aux moyens de communication, à la tech-
nologie utilisée, aux modes d’interaction sociale ainsi qu’à la culture des usagers de ces
services.
1
Web 2.0 apparu en 1999, fondé notamment sur le partage de l’information, l’implication des utilisateurs
dans la création de contenu et les réseaux sociaux.
2

Chapitre 1 PRELIMINAIRES
1.1.2 Le Traitement automatique des langues naturelles (TAL)
Dans la littérature, Le traitement automatique des langues naturelles (TAL) ou Le
traitement du langage naturel (TALN) sont utilisés indifféremment.
Pierrette bouillon [4] définit le TAL comme suit : TAL a pour objet la création de
programmes informatiques capables de traiter automatiquement les langues naturelles. Ela
Kumar [5], par contre définit le TAL selon une vision de l’intelligence artificielle et pro-
grammation : Le TAL est un domaine significatif de l’intelligence artificielle parce qu’un
ordinateur serait considéré comme intelligent s’il peut comprendre la commande donnée
en langage naturel au lieu de C, Fortran ou Pascal. Par conséquent et avec la capacité
d’ordinateur à comprendre le langage naturel, il devient beaucoup plus facile de communi-
quer avec les ordinateurs. Par ailleurs le TAL peut être appliqué comme outil de productivité
dans des applications allant du résume des informations jusqu’à la traduction d’une langue
à une autre.
Une définition plus technique est donnée par JeanVeronis [6], on regroupe sous le voca-
ble TALN l’ensemble des recherches et développements visant à modéliser et à reproduire, à
l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques
dans des buts de communication.
1.1.3 Le Classifieur Na¨ıve Bayes
Cette partie se réfère en général à l’ouvrage ”Speech and Language Processing” [7].
L’idée d’inférence bayésienne est connue depuis les travaux de Bayes en 1763. Elle a été
d’abord appliquée à la classification du texte par Mosteller et Wallace des année 1964.
L’intuition de ce classifieur se présente dans la Figure 1.1. Le document textuel est
représenté sous forme d’un sac de mots (bag-of-words), qui est un ensemble de mots non
ordonné dont les positions sont ignorées. Autrement dit, on ne conserve que leurs fréquences
dans le document. Dans cet exemple, au lieu de représenter l’ordre des mots dans toutes
les expressions comme ”I love this film” et ” I would recommend it”, nous remarquons
simplement que le mot ‘I’ apparait 5 fois dans tout l’extrait, le mot ‘it’ 6 fois, et le ‘movie’
une fois, et ainsi de suite.
3

Figure 1.1: L’intuition du classifieur Multinomial Na¨ıve Bayes appliqué à des avis d’un film
dont leur position est ignorée (sac de mots)
Na¨ıve Bayes est un classifieur probabiliste. Pour un document d, sur toutes les classes
c ∈ C le classifieur renvoie la classe ˆc qui a la probabilité a posteriori maximale donnée du
document, dans l’équation 1.1. Nous utilisons le ˆc pour désigner l’estimation de la bonne
classe.
ˆc = arg max
c∈C
P(c/d) (1.1)
1.1.3.1 L’inférence Bayésienne
L’intuition de la classification bayésienne est d’utiliser la règle de Bayes pour transformer
l’équation 1.1 en d’autres probabilités qui ont des propriétés utiles. La règle de Bayes
est exprimée dans l’équation 1.2, elle nous donne un moyen de briser toute probabilité
conditionnelle P(A/B) en trois autres probabilités :
P(A/B) =
P(B/A) ∗ P(A)
P(B)
(1.2)
4

On peut alors remplacer l’équation 1.2 dans 1.1 pour obtenir 1.3 :
ˆc = arg max
c∈C
P(c/d) = arg max
c∈C
P(d/c) ∗ P(c)
P(d)
(1.3)
Nous pouvons facilement simplifier l’équation 1.3 en supprimant le dénominateur P(d).
Cela est possible parce que nous allons calculer P(d/c)∗P(c)
P(d)
pour chaque classe possible. Mais
P(d) ne change pas pour chaque classe. Ainsi, nous pouvons choisir la classe qui maximise
cette formule simple :
ˆc = arg max
c∈C
P(c/d) = arg max
c∈C
P(d/c) ∗ P(c) (1.4)
Nous calculons donc la classe la plus probable ˆc, étant donné un document d en choisissant
la classe qui a le plus grand produit de deux probabilités : la probabilité a priori de la classe
P(c), et la probabilité conditionnelle P(d/c) du document.
Nous pouvons représenter un document d comme un ensemble des descripteurs F =
f1, f2, . . . , fn ainsi l’équation 1.4 devient comme suit:
ˆc = arg max
c∈C
P(f1, f2, . . . , fn/c) ∗ P(c) (1.5)
Malheureusement l’équation 1.5 est encore trop difficile à calculer directement. Le classifieur
Na¨ıve Bayes fait donc deux hypothèses simplificatrices.
La première est hypothèse du sac de mots discutée intuitivement ci-avant qui suppose
que la position du mot n’a pas d’importance. Ainsi, nous supposons que les descripteurs
f1, f2, . . . , fn encodent seulement les identités des mots et non pas leurs positions.
Le second est appelé l’hypothèse Na¨ıve Bayes : ceci est l’hypothèse d’indépendance con-
ditionnelle que les probabilités P(fi/c) sont indépendants étant donné la classe c et donc
peuvent être ”na¨ıvement” multipliées comme suit :
P(f1, f2, . . . , fn/c) = P(f1/c).P(f2/c). . . . .P(fn/c) (1.6)
L’équation finale pour la classe cNB choisie par le classifieur Na¨ıve Bayes est la suivante :
cNB = arg max
c∈C
P(c)
f∈F
P(f/c) (1.7)
Pour appliquer le classifieur Na¨ıve Bayes au texte. Il suffit de considérer les mots comme
des descripteurs, ainsi F = w1, w2, ..., wn.
5

cNB = arg max
c∈C
P(c)
wi∈F
P(wi/c) (1.8)
Le calcul de Na¨ıve Bayes, comme les calcule pour la modélisation du langage sont faites
de logarithme afin d’éviter les problèmes de calcul des petites valeurs (underflow), et pour
augmenter la rapidité du calcul. Ainsi, l’équation 1.8 devient:
cNB = arg max
c∈C
logP(c) +
wi∈F
logP(wi/c) (1.9)
Il est claire que le calcul de la classe estimée est une fonction linéaire des descripteurs d’entrée.
Le classifieur qui utilise une combinaison linéaire des entrées pour prendre une décision par
classification comme Na¨ıve Bayes sont appelés des classifieurs linéaires.
Pour calculer l’équation 1.9 nous avons besoins de calculer les valeurs P(c) et P(wi/c).
P(c): est la probabilité a priori de la classe c sans connaˆıtre les données.
P(c) =
Nc
Ndoc
(1.10)
Nc: est le nombre des documents ayant comme classe c.
Ndoc: est le nombre total des documents.
P(wi/c) est la proportion du nombre du mot wi parmi tous les mots dans tous les docu-
ments de la thématique (classe) c.
P(wi/c) =
count(wi/c)
w∈F (count(w, c))
(1.11)
Mais Na¨ıve Bayes multiplie na¨ıvement toutes les probabilités, la probabilité zéro dans
le terme de la probabilité conditionnelle cause au probabilité zéro de la classe, et ce-là est
inacceptable.
La solution la plus simple est l’ajout de 1 (Laplace) lissage. Bien que le lissage de Laplace est
généralement remplacé par des algorithmes de lissage plus sophistiqués dans la modélisation
du langage, il est couramment utilisé dans Na¨ıve Bayes texte catégorisation :
P(Fi/c) =
count(Fi/c) + 1
f∈V (count(f, c) + 1)
=
count(Fi/c) + 1
f∈V (count(f, c))+ | V |
(1.12)
| V | : le nombre des termes de tout les documents (sac de mot). Ceci étant, l’algorithme
résume le démarche de la méthode Na¨ıve Bayes pour la classification des textes:
6

Algorithm 1 Algorithme Train Na¨ıve Bayes(D,C)
INPUT: D: labeled training documents
C : Classes
Ndoc = number of document in D
V = ExtractUniqueTerms(D) // V is vector of all the Bag-of-Words in the corpus
V ← vocabulary of D
for each class c in C
logprior[c] ← log Nc
Ndoc
bigdoc[c] ← append(d) for d in D with class c
for each word w in V
count(w, c) ← number of occurences of w in bigdoc[c]
loglikelihood[w, c] ← log count(w,c)+1
w inV (count(w ,c)+1)
return logprior : logP(c), logliklihood : logP(w, c), V
Algorithm 2 Algorithme Test Na¨ıve Bayes(testdoc, logprior, liklihood, C, V)
INPUT C: Classes, d: test document, D: Document corpus,
logP(c), logP(w, c), V
for each class c in C # Calculate P(c) terms
sum[c] ← logprior
for each w in testdoc
if word[w] ∈ V
sum[c] ← sum[c] + logliklihood[word[w],c]
return argmaxc sum[c]
7

1.1.3.2 Exemple d’application
L’exemple ci-dessous 1.1, présente l’apprentissage et le test du classifieur Na¨ıve Bayes.
Nous utilisons un domaine d’analyse de sentiment avec deux classes positives (+) et négatives
(-), et prenons l’apprentissage miniature suivante et testons des simples documents des avis
d’un filme réelles.
Ensemble Classe Tweets
Apprentissage
− Justplainboring
− Entirely predictable and lacks energy
− No surprises and very few laughs
+ Very powerful
+ The most fun film of the summer
Test ? Predictable with no originality
Table 1.1: Exemple d’applcation de l’algorithme de Na¨ıve Bayes.
La probabilité à priori P(c) pour les deux classes se calcule via l’équation 1.10 :
P(−) =
3
5
P(+) =
2
5
les probabilités conditionnelles de l’ensemble d’apprentissage prévue pour les quatre mots
”Predictable”, ”with”, ”no”, ”originality”, sont les suivants, à partir de l’équation 1.12:
P(”predictable” | −) = 1+1
14+20
P(”predictable” | +) = 0+1
9+20
P(”with” | −) = 0+1
14+20
P(”with” | +) = 0+1
9+20
P(”no” | −) = 1+1
14+20
P(”no” | +) = 0+1
9+20
P(”originality” | −) = 0+1
14+20
P(”originality” | +) = 0+1
9+20
Pour la phrase de test S = ”Predictable with no originality”, la classe choisie, se calcule par
l’équation 1.8 ou l’équation 1.9
P(−)P(”S” | −) = 3
5
∗ 2∗1∗2∗1
344 = 1.8 ∗ 10−6
P(+)P(”S” | +) = 2
5
∗ 1∗1∗1∗1
294 = 5.7 ∗ 10−7
ou :
log(P(−)) + log(P(”S” | −)) = log(3
5
) + (log( 2
34
) + log( 1
34
) + log( 2
34
) + log( 1
34
)) = −5, 75
log(P(+)) + log(P(”S” | +)) = log(2
5
) + (log( 1
29
) + log( 1
29
) + log( 1
29
) + log( 1
29
)) = −6, 25
Le modèle estime une classe négative pour la phrase de test S.
8

1.2 Analyse des Sentiments et Domaines d’Applications
1.2.1 Définitions de l’analyse des sentiments
Dans la littérature, sentiment analysis, opinion mining, opinion extraction, sentiment
mining, subjectivity analysis, affect analysis, emotion analysis, review mining, appraisal ex-
traction, sont des termes utilisés pour désigner des technologies d’analyse automatique des
discours, écrits ou parlés, afin d’en extraire des informations subjectives comme des juge-
ments, des évaluations ou des émotions.
L’origine de la discipline l’analyse des sentiments se réfère aux des sciences de la psy-
chologie, la sociologie et l’anthropologie [8]. Le terme Analyse Sentimentale se réfère à
l’extraction automatique de texte évaluative, qui aide à produire des résultats prédictifs. Le
terme analyse de sentiment est apparu en Nasukawa et Yi en 2003 [9], et le terme extraction
de l’opinion terme est apparu dans Dave, Laurent et Pennock en 2003 [10]. Cependant, la
recherche sur des sentiments et des opinions est apparue plus tôt dans [11] [12] [13] [14] [15]
[16].
Bing Liu [17] a présenté une définition de l’analyse des sentiments comportant les do-
maines d’application ainsi que sa relation avec le TALN : l’analyse des sentiments est le
domaine de l’étude qui analyse les opinions, les sentiments, les évaluations, les attitudes
et les émotions des gens vers des entités telles que des produits, des services, des organ-
isations, des particuliers, des problèmes, des événements, des sujets, et leurs attributs.
Il représente un grand espace de recherche. L’analyse des sentiments est un domaine de
recherche extrêmement actif en traitement automatique des langues.
Pour mettre en valeur l’intérêt de l’échange d’opinions dans l’analyse des sentiments, Pang
et Lee en 2008 [18] considère que l’opinion des autres a toujours été une pièce d’information
très précieuse au moment de se faire une opinion ou de prendre une décision. En effet, avant
l’apparition du Web et l’Internet, les gens avaient intérêt à connaˆıtre les opinions de leurs
amis ou de leur famille. Il leur était demandé de faire savoir quel parti politique recevrait
leur voix lors des prochaines élections. Grâce à l’essor considérable qu’ont connu le Web et
l’Internet à partir des années quatre-vingt-dix, il est devenu possible pour tous de consulter
l’opinion d’un vaste groupe de personnes à travers le Web. Donc l’échange d’opinion est la
phase principale qui permet d’effectuer une analyse de sentiment sur un sujet donné.
Selon H Tang et S Tan X la plupart des recherches existantes se sont portées sur la
9

fouille et l’extraction de faits, par exemple, la recherche d’information, la recherche sur le
Web et beaucoup d’autres. On assiste, ces dernières années, à une prise de conscience de
l’importance de l’opinion sur le web, ce qui explique les nombreux et récents travaux dans
ce domaine [19]. Ils montrent l’importance de l’analyse de sentiment dans le temps actuel.
1.2.2 Domaines d’applications de l’analyse des sentiments
L’importance de la détection d’opinion est présente dans plusieurs domaines ainsi plusieurs
applications ont vu le jour dans ce contexte. Nous citons brièvement quelques applications
ci-dessous:
1.2.2.1 La politique
Les acteurs politiques ont suivi la tendance de détection d’opinion, tel qu’avant de
promulguer une nouvelle loi, les politiciens essayent de récolter l’avis des internautes sur
cette loi. Il est intéressant de connaˆıtre aussi l’avis des internautes sur un homme politique
pour une élection présidentielle [20].
1.2.2.2 Les entreprises
À travers l’analyse des sentiments, les entreprises peuvent connaˆıtre l’opinion des
clients sur leurs produits ou leur service. Dans une perspective d’améliorer leurs produits et
d’augmenter leurs chiffres d’affaires [20].
Dans le domaine du Product review mining, notamment à partir des sites de consultation.
Les consommateurs viennent y échanger des avis et trouver des conseils pour leurs décisions
d’achat (produits technologiques, voitures, voyage et hôtels, ... etc) [27].
Le marketing a rapidement compris l’intérêt de l’analyse de sentiment. Des agences
vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits [21].
1.2.2.3 Les clients
L’analyse des sentiments fait partie aussi de vie des internautes. Les sondages dans ce
domaine montrent que la majorité des clients avant qu’ils achètent un produit, ils font des
recherches d’avis sur se produit ou un service donné et même ils sont prêts à payer plus cher
un produit dont l’avis est plus favorable qu’un autre [20].
10

1.2.2.4 Gestion de réputation de la marque (GRM)
La gestion de la réputation de la marque en Anglais Brand Reputation Management
(BRM) se préoccupe par la gestion de le réputation de la marque sur le marché. Les opin-
ions des clients ou d’autres parties peuvent endommager ou améliorer une telle réputation.
la GRM est s’intéresse au produit et à l’entreprise plutôt qu’au client. Actuellement, un-
à-plusieurs (one-to-many) conversations ont lieu en ligne à un taux élevé. Cela crée des
opportunités pour les organisations à gérer et à renforcer la réputation de leurs marque.
Maintenant, la perception de marque est déterminée non seulement par la publicité et les
relations publiques. Les marques sont devenues une somme des conversations à leur su-
jet. L’analyse des sentiments aide à déterminer comment la marque, produit ou service de
l’entreprise est per¸cue par la communauté en ligne [22].
1.3 Sources des Données
Les opinions des utilisateurs présentent le critère principal pour l’amélioration de la qualité
des services fournis et la mise en valeur des produits livrés. Ces opinions se présentent sous
différentes sources de données, à savoir, sites d’avis, blog et micro-blog.
1.3.1 Sites d’avis
Les opinions ont le rôle de décideur pour tout utilisateur durant la phase d’achat.
Les avis générés par les utilisateurs sur les produits et les services sont largement disponibles
sur internet. La classification de sentiment utilise les données de l’examinateur collectées à
partir des sites Web tels que :
• www.gsmarena.com (revues de téléphone portable).
• www.amazon.com (revues des produits).
• www.CNETdownload.com (revues des produits).
Ces sites accueillent des millions d’avis sur les produits par les consommateurs [24] [25].
11

1.3.2 Blogs
Un blog est où les personnes peuvent écrire les différent sujets dans un but de partage avec
d’autres personnes sur le mémé site. La simplicité de la création des postes blogs ainsi que
leur forme libre à rendue le blogging un évènement accessible. La blogosphère nom associé
à l’univers de tous les blogs . Sur la blogosphère, nous trouvons un nombre important de
messages relatif à une panoplie des sujets d’intérêt. Les blogs sont utilisés sources d’opinions
dans la plupart des études relatives à l’analyse des sentiments [24] [26].
1.3.3 Micro-blogs
Les micro-blogs sont parmi les outils de communication très populaires des utilisateurs
d’internet. Chaque jour, des millions de messages apparaissent dans des sites Web populaires
pour les micro-bloging tels que : Twitter , Tumblr , Facebook . Parfois les messages Twitter
expriment des opinions qui sont utilisées comme source de données pour classifier le sentiment
[24] [27].
1.4 Twitter
En Mars 2006, Twitter a été crée par le développeur Jack Dorsey comme un outil pour
rester en contact avec les amis, Twitter est un service sur le Web qui permet aux utilisateurs
d’envoyer et de lire un message court [28].
1.4.1 Twitter et tweet
Twitter est un réseau social et un microblog qui permet aux utilisateurs de publier
des messages en temps réel, appelés tweets. Les tweets sont des messages courts, limités à
140 caractères. En raison de la nature de ce service de microblogging (messages rapides et
courts), les gens utilisent des acronymes, commissent des erreurs d’orthographe, utilisent des
émoticônes et d’autres caractéristiques qui expriment des significations particulières [29].
Twitter est actuellement l’un des plates-formes de micro-blogage les plus populaires. Son
premier slogan était Que faites-vous ? néanmoins l’utilisation a pris une autre piste où les
utilisateurs échangent des avis et des informations, le slogan devient ” Quoi de neuf ? ”.
Plusieurs célébrités utilisent Twitter, on y trouve même des chefs d’État.
12

Selon les derniers chiffres 2
:
• Twitter a plus que 645 millions utilisateurs inscrits.
• 58 millions de tweets envoyés chaque jour.
Dans le cadre de l’analyse des sentiments, la petite taille de message formule l’hypothèse que
ce message ne renferme pas a priori plus d’une seule idée, ce qui facilite l’identification de
la cible d’une opinion. Mais certains tweets apparaissent comme des messages codés à cause
de l’usage des hashtags, abréviations en tout genre, argot, et émoticons.
Les termes à connaˆıtre pour bien utiliser Twitter, des vocabulaires spécifiques sont utilisé
sur Twitter plus couramment[30] :
- Followers : les personnes qui vous suivent.
- Followings : les personnes que vous suivez.
- Friends : les personnes que vous suivez et qui vous suivent.
- Twittos : les utilisateurs de Twitter.
- Tweet : court message.
- Tweeter : envoyer/poster un message.
1.4.2 Caractéristique d’un tweet
On peut se sentir un peu perdu du vocabulaire de la langue dans les tweets, notamment, à
cause du vocabulaire et symboles spécifiques à l’utilisation de Twitter. A quoi sert le et # ?
C’est quoi RT? Toutes ces abréviations peuvent paraitre un peu floues. Dans une perspective
de classification, un petit lexique des principaux mots et signes Twitter est présenté [31] [32]:
• Mention @ : se présente sous la forme @NomUtilistauer Il cible un utilisateur de
Twitter dans le tweet posté. Exemple : salut à vous de la part de @FredColantonio et
@alinler.
Dans le cadre d’une réponse à un tweet, l’auteur du tweet d’origine est mentionné
automatiquement dans la réponse.
2
http://www.statisticbrain.com/twitter-statistics/
13

• Hashtag # : se présente sous la forme #mot-clé. Il identifie le mot-clé en question
comme important et peut en faire un sujet populaire. Exemple : #gouvernement,
#graphisme ou encore #facebook.
• RT (ReTweet) : se présente sous la forme RT NomUtilisateur. Il permet de partager
le tweet d’un utilisateur. Exemple : RT fredcolantonio Excellent .
• URL (Lien) : se présente sous la forme https:// ou http://www. Twitter permet au
utilisateur de rejoindre les lien dans son tweet. Exemple : https://web.stanford.edu
ou http://www-nlp.stanford.edu/IR-book/.
• VIA : s’utilise pour mentionner votre source d’information, dans votre tweet.
Exemple : Via YouTube, Via Facebook.
14

Chapter 2
ÉTAT DE L’ART
Les données des médias sociaux permettent à l’analyse du sentiment de prendre un
grande espace de recherche.
2.1 Approches de l’Analyse des Sentiments et la Détection
d’Opinions
Dans la littératures, nous pouvons distinguer trois types d’approches pour la détection
d’opinions et l’analyse des sentiments :
2.1.1 Approches d’apprentissage automatique
Appelé aussi approche statistique, cette approche se basée sur l’apprentissage automa-
tique. Elle utilise la technique de classification pour classer le texte en des classes déférentes.
Il existe principalement deux types de techniques d’apprentissage [33]:
2.1.1.1 Apprentissage supervisé
Il est basé sur les données libellées et par conséquent, les étiquettes sont fournies au modèle
au cours du processus d’apprentissage. Ces données libellées sont utilisées par l’algorithme
d’apprentissage pour donner un modèle qui sera utilisée lors de la prise de décision.
Certains modèles d’apprentissage automatique ont été formulées pour classer les tweets en
classes. Les techniques d’apprentissage automatique comme Na¨ıve Bayes (NB), l’entropie
maximale (ME), et les machines à vecteurs de support (SVM) ont donné un grand succès
15

Chapitre 2 ÉTAT DE L’ART
dans l’analyse des sentiments.
L’apprentissage automatique commence par la collection des données d’apprentissage.
Ensuite, on entraine un classificateur sur ces données. Une fois une technique de classification
supervisée est sélectionnée, une décision importante à faire est la sélection des descripteurs.
Ces derniers nous disent comment les documents sont caractérisés. Les descripteurs les plus
couramment utilisés dans la classification de sentiment sont:
• Présence de termes et leur fréquence.
• Information de la partie de discours (POS).
• Négations.
• Mots et des phrases d’opinion.
2.1.1.2 Apprentissage non supervisé
Il ne consiste pas d’une classification précise, donc il se base sur le regroupement.
Le succès de ces deux méthodes d’apprentissage dépend principalement de la sélection et
l’extraction de l’ensemble des descripteurs utilisés pour détecter le sentiment (la classe), les
algorithmes d’apprentissage non supervisés classification hiérarchique ascendante, centres
mobiles, règles d’association,... etc.
2.1.2 Approche lexique
Méthode basée sur le lexique, elle utilise le dictionnaire des sentiments avec des mots
d’opinion et les faire correspondre avec les données pour déterminer la polarité. Elle attribue
les scores de sentiment aux mots d’opinion décrivant si les mots sont positifs, négatif ou
neutre.
Les approches fondées sur le lexique reposent principalement sur un lexique de sentiment, à
savoir, une collection de termes de sentiment connue et précompilée, des phrases et même
des expressions idiomatiques, développés pour les genres traditionnels de communication,
tels que le lexique OpinionFinder [33].
16

2.1.3 Approches hybride
Cette approche est appelée aussi classification semi-supervisées. Elles combinent les
points forts des deux approches précédentes. Elles prennent en compte tout le traitement
linguistique des approches symboliques avant de lancer le processus d’apprentissage comme
dans les approches statistiques [27].
2.2 Historique sur l’Analyse des Sentiments
Dans cette partie nous présentons une brief historique de l’analyse des sentiments. Nous
nous somme basés sur l’article [34].
Hatzivassiloglou et McKeown en 1997, travaillaient au niveau de document et utilisaient ”
World Street Journal ” comme source de données. leurs travaux se basent sur les conjonctions
et les adjectives et créent un modèle de Log Linear Regression. Dans le même niveau
document Pang et al. en 2002 effectuaient une analyse avec des modèles d’apprentissage
Na¨ıve Bayes (NB), Support Vector Machine (SVM), Maximum Entropy (ME). Il ont utilisé
Unigram, bigram, effet contextuel de la négation,et les fréquences. Ils ont appliqué de
tels modèles sur les critiques des films. Nous citons aussi autres travaux sur l’anlyse des
sentiments au niveau documents : Das et Chen en 2001, Turney 2002, Morinaga et al 2002,
Turney et Littman 2003 et Pang et Lee 2004.
Nigam et Hurst à l’année 2004, travaillaient au niveau des expressions en se basant sur
le lexique des phrases polaires et leurs parties du discours (POS Part Of Speech) avec un
modèle basé sur des règles syntacsiques en utilisant Usenet message board et autres sources
enligne comme source de donnes. Au niveau des phrase Wilson et al en 2005, développent
un modèle nommé BoosTexter qui s’intéresse à la subjectivité lexique avec un corpus de
MQPA. Dans les niveaux de phrase et expression nous pouvons cité aussi Aue et Gamon
à l’année 2005, les descripteurs utilisés sont les termes lematisés, leur fréquences et poids,
Popescu et Etzioni en 2005, proposent un modèle de dépendance syntaxique qui se bases sur
les conjonctions et disjonctions de WordNet, Cesarano en 2006, mis en jeux les modèles sur
POS et N − grams.
Hu et Liu en 2005, développaient un modèle d’extraction d’opinions à base de mots et
extension d’aggregation avec WordNet. les descripteurs utilisés sont les mots d’opinion et
les phrases d’opinions. Ils utilisaient Cnn.net de Amazon comme source de donnés. En
17

2007 Godbole et al, ont développé un modèle lexicale à base de WordNet. Il ont utilisé
des descripteurs qui se basent sur des mesures de distance dans le graphe entre les mots
en tenant compte les relations de synonymie,anonyme, commun des mots. les sources de
données utilisées sont les journaux et les les publications.
Ferguson et al à l’année 2009, utilisaient les articles de blog financiers comme source de
données pour créer un modèle Multinomial Na¨ıve Bayes (MNB) en manipulant des vecteurs
binaires des descripteurs au niveau des phrases.
Au niveau des mots, Melville et al en 2009, effectuaient une classification bayésienne avec
les lexiques et documents d’apprentissage en utilisant les posts des blogs, site des avis, des
blogs politiques et des critiques des filmes.
Concernant l’analyse des sentiments sur Twitter, Pak et Paroubek en 2010, Barbosa et
Feng à l’année 2010, ont travaillé au niveau des phrases des messages Twitter. Les premiers
auteurs utilisent les N − gram et POS − tags comme des descripteurs avec le classificateur
MNB, tandis que les derniers utilisent les retweets, hashtags, liens et le point ponctuations
en conjonction avec les descripteurs comme les polarités à prioris des mots ainsi que les POS
de mots pour créer le modèle SVM.
2.3 Travaux sur L’Analyse des Sentiments avec Twit-
ter
Pour présenter les recherches sur l’analyse des sentiments avec Twitter; nous considerons
trois catégories à savoir, Classification de sentiments, Prédiction des résultats, Détection des
évènements.
2.3.1 Classification de sentiments
Twitter est un moyen de publication les avis et les opinions dans divers domaines.
En 2009 [35]développent une application qui s’appelle twitter sentiment
(http://twittersentiment.appspot.com/). Cette application détermine la polarité de tweet
positif ou négatif, les auteurs testent trois types d’algorithmes sur les tweets Na¨ıve Bayes
(NB), Maximum Entropy (ME) et Support Vector Machine (SVM). Ces trois méthodes
ont montré des résultats similaires, entre 80% et 83% de réussite quant à la prédiction de
sentiment (positif ou négatif) par rapport aux messages publiés. Les auteurs appliquent un
18

prétraitement aux données de Twitter utilisent des émoticônes étiquettes.
Barbosa et Feng en 2010 [36] [37] ont rapporté une méthode d’analyse de sentiment en
deux étapes pour twitter en utilisant des données d’entrainement contenant du bruit. Ils ont
classifié les tweets pour la première fois en deux clases subjectif (polaire) et objectif (non
polaire). Ils ont la méthode SVM, des données d’entrainement rassemblées de trois sites Web
(twendz , twittersentimen , tweetfeel ). Ils se sont focalisés sur l’utilisation des descripteurs
plus abstraits au-delà des N−gram simples tels que des méta-descripteurs et des descripteurs
syntactiques de tweet. Les méta- descripteurs incluent POS − tag, la subjectivité et la
polarité antérieure des mots à base de dictionnaire, les expressions négatives. Les descripteurs
de syntaxe de tweet incluent le retweet, hashtag, réponse, hyperliens, ponctuation, symboles
d’expression d’émotion, aussi bien que des majuscules. Ces descripteurs se sont avérés plus
robustes que des N − gram.
2.3.2 Prédiction des résultats
Ces travaux traitent la prédiction des résultats à partir des messages publiés dans Twitter :
En 2010 Lampos et Cristianini [38] développent un outil de surveillance pour dépister des
modèles ILI (Influenza-like Illness) en utilisant des données Twitter spécifiques de la région
Britanniques. Des tweets contenant des mots clés symptôme-connexes ont été rassemblés
pendant 6 mois pendant 2009 avec Une moyenne quotidienne de 160.000 tweets. Ces
données, converties en mesures score-grippe (flu-score), ont été comparées aux rapports
H1N1 hebdomadaires de l’agence de protection sanitaire. Le score de résultant est fortement
corrélé avec les rapports ( 95%). Cette méthode fonctionne indépendamment de la langue,
peut déterminer des rapports auto-diagnostiques dans les tweets, et la série chronologique
d’utilisations géolocalisées des données.
En 2010, une analyse des séries chronologiques est appliquée au sondage d’opinion publique
politique aux messages Twitter qui ont mentionné le président Barrack Obama [39]. Les au-
teurs employaient le logiciel qui a mesuré le sentiment dans les messages de Twitter, pour
comparer le sentiment public d’Obama aux sondages d’opinion publique collectés tradition-
nellement. Les auteurs ont conclu que Twitter est une mesure fiable de l’opinion publique
[40].
Sakaki,Okazaki,et Matsuo en 2010 [41] [42] ont essayé de détecter les tremblements de
terre de l’information générée par les capteurs sociaux représentés par les utilisateurs de twit-
19

ter. En utilisant le modèle à la fois temporelle et géo-spatiale, les auteurs ont démontré que
les tweets pourraient être utilisé pour prédire les tremblements de terre quelques instants
après qu’ils se produisent et même de prédire l’emplacement d’un tremblement de terre.
De même, les auteurs montrent qu’il est possible de prédire la trajectoire des ouragans en
utilisant tweets générés par la région affectée.
2.3.3 Détection des évènements
Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des
évènements et pour donner des avis.
À partir du message publié sur Twitter on peut détecter un événement.
En l’année 2011 Weng et Lee [43] s’intéressent à la détection d’événement sur Twitter en
analysant le contenu des tweets publiés dans la plateforme. Ils ont introduit une structure
nommé EDCoW (Event Detection with Clustering of Wavelet-based Signals). Dans EDCoW,
le signal de chaque mot est calculé en appliquant l’analyse en ondelettes sur la fréquence
des signaux bruts des mots. En considérant l’autocorrélation des signaux correspondants,
les mots sans importance sont supprimés. Les mots restants sont ensuite regroupés pour
construire des événements avec une technique graphique. Sur la base de leur expérimentation,
les auteurs affirment que EDCoW atteint une bonne performance dans l’étude.
Ozdikis et al en 2012 [44] proposent une méthode de détection d’événements sur Twitter
en se base sur le regroupement de hashtag, le symbole # est utilisé pour marquer des mots-
clés ou sujets dans twitter, et l’expansion sémantique aux vecteurs de message. Pour chaque
hashtag, les trois hashtags sontles plus similaires sont extraits en utilisant la similitude
cosinus. Un vecteur de tweet avec un seul hashtag est élargi avec trois hashtags similaires,
puis utilisé dans le processus de regroupement. Cependant, en utilisant uniquement les
messages avec un seul hashtag peut conduire à ignorer certains événements importants. En
outre, ils surent un événement ou non En outre, ils ne mettent pas aucun filtre de crédibilité
pour décider si un tweet est un événement ou non.
20

2.4 Difficultés de la Fouille d’opinions et de l’Analyse
des Sentiments
L’extraction du sentiment ou d’opinion consiste à déterminer la polarité d’un tel opinion.
Cette dernière est en général peut être positive (pour décrits une opinion favorable), négative,
ou neutre. Dans ce qui suit nous citons quelques difficultés de cette procédure [20] [21] [23].
- Ambigu¨ıté de certains mots positifs ou négatifs selon les contextes et qui ne peut pas
toujours être levée.
- Difficulté due aux structures syntaxiques et sémantiques d’une phrase et l’expression
de l’opinion qu’elle véhicule. Par exemple ” l’histoire du film est intéressante mais les
acteurs étaient mauvais ”. Dans ce cas la polarité de la deuxième partie est opposée à
la première.
- Difficulté due au contexte : la nécessité d’une bonne analyse syntaxique du texte ;
analyse qui peut se révéler particulièrement difficile dans des cas de coordination entre
plusieurs parties d’une phrase. Par exemple ”ma tonte a bien préparé le gâteau, son
décor est bonne mais je n’ai pas aimée le goût”, l’opinion de la dernière partie de la
phrase est la plus importante.
- Difficulté due à l’analyse de la phrase par ” paquets de mots ”. Les deux phrases
suivantes contiennent les mêmes paquets de mots sans pour autant exprimer les mêmes
sentiments. La première phrase contient un sentiment positif alors que la deuxième
est négative : ” Je l’ai apprécié pas seulement à cause de ...”, ” Je l’ai pas apprécié
seulement à cause de ... ” où se présente la gestion de négation.
21

Chapter 3
EXPÉRIMENTATION :
APPRENTISSAGE ET TEST
Comme de coutumes des travaux d’apprentissage, notre expérimentation passe par les
deux phases d’apprentissage et de test, tel que illustré par la Figure 3.1. Néanmoins, avant
d’entrer dans les détails, nous décrivons d’abord notre environnement de travail.
Figure 3.1: Processus de l’apprentissage automatique
3.1 Environnement de Travail
D’abord, nous donnons une description de l’environnement de notre expérimentation :
22

Chapitre 3 EXPÉRIMENTATIONS ET INTERPRÉTATIONS
3.1.1 Environnement matériel
Afin de mener notre expérimentation et évaluation, nous avons utilisé un PC marque HP
Pavilion, équipé d’un processeur multi-coré I3, cadencé par une horloge d’une fréquence de
2.40GHZ, avec 4 GO Octets de RAM, un disque dur d’une capacité de 400 Giga Octets.
3.1.2 Environnement logiciel
Nous avons utilisé le langage de programmation Python. Python est un langage de
programmation portable, dynamique, extensible, gratuit, qui permet (sans l’imposer) une
approche modulaire et orientée objet de la programmation. Python est développé depuis
1989 par Guido van Rossum et de nombreux contributeurs bénévoles.
pour ce là nous avons utilisé l’environnement de développement Spyder (Scientific PYthon
Development EnviRonment)qui est un IDE orienté vers un usage scientifique de Python.
Pour se focaliser sur notre expérimentation et tirer profit des puissance du langage Python,
nous avons utilisé les packages suivants :
• Package CSV : CSV (Comma Separated Values) module pour lire et écrire des données
au format CSV.
• Package re : (Regular expressions) Ce module fournit des opérations correspondant
aux expressions régulières.
• Package numpy : numpy (NUMeric Python) est une bibliothèque numérique apportant
le support efficace de larges tableaux multidimensionnels, et de routines mathématiques
de haut niveau (algèbre linéaire, statistiques, .. etc.).
• Package Nltk : Nltk (Natural Language Toolkit) est une plate-forme pour la création
de programmes Python pour travailler avec des données de langage humain.
• Package Sklearn : est un module en Python pour l’apprentissage automatique.
Il est a noter qu’un bon point de départ pour le développement d’un module d’analyse
des sentiments sur Twitter se trouve dans [45]
23

3.2 Phase d’Apprentissage
La phase d’apprentissage comporte le prétraitement des données d’apprentissage ainsi
que l’extraction et la présentation de descripteurs :
3.2.1 Source des données (Data set)
Nous avons utilisé l’ensemble des données des tweets étiqueté par Niek Sanders à partir du
site Sanders Analytics 1
. Il se présente sous forme d’un fichier d’extension (.csv) contenant
5113 tweets étiquetés manuellement. Cet ensemble de données comporte quatre classes des
sentiments, à savoir positive, négative, neutre et hors du sujet.
Il traite quatre différents sujets Apple, Google, Microsoft et Twitter. Chaque entrée de notre
ensemble de données est structuré comme suit :
• Tweet id : un identifiant du tweet.
• Tweet texte : il contient le texte du tweet publié par l’utilisateur.
• TweetDate : date de publication du tweet.
• Topic : le sujet du tweet (Apple, Google, Microsoft ou Twitter).
• Sentiment : Étiquette du tweet, qui peut être(”positif”, ”négatif”, ”neutre” ou ”hors
de sujet”).
La répartition des données selon leurs sujets et leurs sentiments est illustré dans le
Tableau 3.1 :
Sujet Positif Neutre Négatif Hors de sujet
Apple 191 581 377 164
Google 218 604 61 498
Microsoft 93 671 138 513
Twitter 68 647 78 611
Table 3.1: Description du corpus Niek Sanders
1
http://www.sananalytics.com/lab/twitter-sentiment/
24

Pour assurer un bon apprentissage nous devons imposer un ordre aléatoire au corpus comme
montré dans le code algorithme 3.
Algorithm 3 Fonction getData pour récupéré le corpus
def getData(corpus):
fp = open(corpus , ’rb’ )
reader = csv.reader( fp, delimiter=’,’, quotechar=’”’, escapechar=’ // ’ )
csvv = islice(reader, 1, None, None)
tweets = []
for row in csvv:
t= row[4]
sentiment= row[1]
tweets.append([t, sentiment]);
random.shuffle( tweets );
return tweets
3.2.2 Prétraitement
Nous avons déjà abordé dans la Section 1.4.2 les caractéristiques des tweets qui se
résume en général dans les longueurs limiteés et l’utilisation d’un langage informel. Ainsi,
l’utilisateur de Twitter utilise des abréviations, des émoticons, et des argots pour exprimer
ses opinions et ses sentiments. Par conséquence une étape de prétraitement est indispens-
able.
Dans ce qui suit nous allons présenter la procédure de prétraitement suivie dans notre travail,
dont le but de cette étape est de nettoyer les tweets et leur rendre le plus proche possible à
un langage formel.
D’abord nous avons commencé par le filtrage de tweets, en ne considerant que ceux écrit
en langue anglaise. Car un corpus de differents langages est un corpus qui contient du bruit.
Pour se faire nous avons utilisé une bibliothèque dans Python SentiWordNet qui se référer
à le package nltk.
Pour assurer une correspondance entre le langage informel des émoticons et des abréviations,
nous avons crée deux dictionnaires (Table 3.2).Ces dictionnaire sont crées sur la base des
25

ressources23
qui fonctionnent avec les tweets.
# positive emoticons
”lt;3”: ” pretty ”,
”:d”: ” pretty ”,
”:D”: ” pretty ”,
”:-)”: ” pretty ”,
”:=)”: ” pretty ”,
”=)”: ” pretty ”,
”:)”: ” pretty ”,
”;)”: ” pretty ”,
# negative emoticons:
”:/”: ” sad ”,
”:gt;”: ” sad ”,
”:’)”: ” sad ”,
”:-(”: ” awful ”,
”:(”: ” awful ”,
”:S”: ” awful ”,
”:-S”: ” awful ”,
#Abvrévioation
”2”: ”To”
”AKA”: ”Also known as”
”AOL”: ”America Online”
”AP”: ”Associated Press”
”app”: ”Application”
”ASL”: ”Age, sex, location”
”ATM”: ”At the moment”
”b/c”: ”Because”
”b/w”: ”Between”
”b4”: ”Before”
”bf”: ”Boyfriend”
”BFF”: ”Best friends forever”
”gf”: ”Girlfriend”
”GJ”: ”Good job”
Table 3.2: A gauche -Emoticons Positive négative-, à droite -Abréviaton en Anglais-
Par ailleurs nous avons utilisé une liste de formes contractées se présente dans le Tableau
3.3 pour rendre quelque mots ou groupe des mots plus clair.
2
http://slangit.com/terms/common
3
http://slangit.com/emoticons/common
26

Forme contractée Forme non contractée
Won’t Will not
Can’t Can not
I’m I am
Isn’t Is not
‘ll will
‘ve have
‘re are
‘d would
Table 3.3: Les formes contractés
Une fois les dictionnaires crées nous avons procédé à un prétraitement qui suit les étapes
suivantes :
1- Remplacer les émoticons : en utilisant le dictionnaire des émoticons.
2- Remplacer les abréviations : en utilisant le dictionnaire des abréviations.
3- Supprimer les identifiants des utilisateurs (USER) : nous avons utilisé l’expression
régulière @[ s]+ pour détecter les mots qui représentent les identifiants des utilisa-
teurs Twitter dont le signe il le faut détecter.
4- Supprimer les liens web (URL) : nous avons utilisé l’expression régulière ‘((www .[
s]+)|(https? : //[ s]+)) pour détecter les liens des sites cité dans le tweet.
5- Supprimer les Hashtags (TAG) : nous avons utilisé l’expression régulière r #([ s]+)
pour détecter les mots clé (sur des sujet précis) dans le tweet.
6- Éliminer les caractères répétés : nous avons éliminé les répétitions des caractères dans
les mots comme ( coooool : cool, hhhhhhh :hh) que l’utilisateur l’utilise pour affirmer
et assurer le sens.
7- Supprimer les chiffres : il faut supprimer les chiffres qui n’ont aucun impact sur la
classification.
8- Éliminer les commandes VIA, RT : Twitter possède son propre vocabulaire et fonc-
tions, il y’a les commande VIA et RT indique que le tweet a été rediffusé par un
27

autre utilisateur, nous les avons éliminé à cause de son influence négligeable sur la
classification.
9- Éliminer les ponctuations : les utilisateurs utilisent dans leurs tweets beaucoup de
ponctuations qui n’ont pas une importance dans notre classification, donc il a été
mieux de les éliminer dans cette phase.
10- Supprimer les mots vides (Stop-words), nous avons utilisé les mots vides en langue
Anglaise prédéfinies dans le package nltk.corpus.
Le Tableau suivant 3.4 donne quelques exemples de tweets avant et après le prétraitement:
28

Tweets avant prétraitement Tweets après traitement
- Thank you to everyone who made this Eu-
rope 2016 tour possible :) !
- thank you to everyone who made this europe
tour possible pretty
- thank you so much for teaching us values on
Twtr. I am waking up :o3 at 4am for the last
2 wks. Salute sir!
- thank you so much for teaching us values on
twiitr i am waking up ordinary at am for the
last weeks salute sir
- I don’t lurk cause I don’t care anymore - i do not lurk cause i do not care anymore
- @DZfoot @Mahrez22 @algeria #Fearless-
Foxes Makes me believe in dreams. ..legend
vive Dz
- makes me believe in dreams legend vive dz
- Hey guys wish you had a super doper day ..
¡3 ¡3 i’m here in @algeria and it’s hot day. ..
- hey guys wish you had a super doper day
heart heart i am here in and it is hot day
- Find jobs in Algeria
https://www.bayt.com/en/algeria/ via
@Baytcom
- find jobs in algeria
- DUUUUUUDE HHHHHH THIS IS
COOOOOL O:-)
- duude hh this is cool pretty
- WHY WOULD YOU DO THIS :/ !?!?! - why would you do this sad
- MAY2016 (08) RT this to enter our
£20.00 Amazon voucher #competition
(TC on web) http://grandslam.uk.com via
@GrandSlamEvents
- this to enter our amazon voucher on web
Table 3.4: Tweets avant et après le prétraitement
3.2.3 Extraction et présentation des descripteurs
Dans cette étape, nous considderons les termes restant après l’étape de prétraitement
comme descripteurs. Nous avons recensai 4002 descripteurs. Ces descrepteurs ont un role
important pour la classification des sentiments.
Pour réaliser l’opération d’apprentissage, nous avons proposé deux représetation : le
modèle booléen et le modèle de pondération TF-IDF.
le modèle booléen considère un document d est représenté sous forme d’un vecteur
29

booléen. Ce vecteur est l’ensemble des descripteurs, chaque descripteur peut prendre une
valeur 0(faux) si le terme n’existe pas dans le document, ou 1 (vrai) sinon. La représentation
d’un document dans le modèle booléen se présente comme suit: d = (1, 0, 0, 0, 1, 1, 0, 0...).
Tandis que le modèle de podération TF-IDF (Term Frequency – Inverse Document Fre-
quency) dans le modèle vectoriel un document est représenté sous forme d’un vecteur dans un
espace engendre par tous les termes d’indexation. La dimension de cet espace est le nombre
de termes d’indexation de la collection de document. Les coordonnées d’un vecteur docu-
ment sont les poids des termes d’index dans ce document, est donne un poids plus important
aux mots caractéristiques d’un document présente ce forme d = (w1, w2, w3, ..., wn). Dans,
un premier temps, il est nécessaire de calculer la fréquence d’un terme (Term Frequency).
Celle-ci correspond au nombre d’occurrences de ce terme dans le document considéré. Ainsi,
pour le document dj et le terme ti, la fréquence du terme dans le document est donnée par
l’équation suivante :
TFi,j =
ni,j
k nk,j
(3.1)
• ni,j: est le nombre d’occurrences du terme ti dans dj.
• sumknk,j: est le nombre de termes dans le document.
La fréquence inverse de document (Inverse Document Frequency) mesure l’importance du
terme dans l’ensemble du corpus. Elle consiste à calculer le logarithme de l’inverse de la
proportion de documents du corpus qui contiennent le terme. Elle est définie de la manière
suivante:
IDFi = log2
|D|
|dj : ti ∈ dj|
(3.2)
|D| représente le nombre total de documents dans le corpus et | dj : ti ∈ dj | est le nombre
de documents dans lesquels le terme ti apparaˆıt. Enfin, le poids s’obtient en multipliant les
deux mesures :
TF − IDFi,j = TFi,j ∗ IDFi (3.3)
30

3.2.4 Apprentissage
Notre démarche d’analyse de sentiments s’inscrit dans l’approche d’apprentissage au-
tomatique supervisé. Nous avons utilisé l’algorithme d’apprentissage Na¨ıve Bayes qui sera
utilisé dans l’étape de prédiction.
concernant le coté implémentation, nous avons utiliser l’implémentation de Na¨ıve Bayes
d’après sklearn.naive bayes du package Sklearn mentionné dans la section 3.1.2, l’appel du
classifieur pour l’apprentissage se fait par le biais du code algorithme 4.
tel que:
Algorithm 4 Appelle et entrainement du classifieur NB
- NBClassifier ¯MultinomialNB() # Appelle du clssifieur
- NBClassifier.fit(X vec train, y train) # Entrainement du classifieur
• X vec train est les tweets d’ensemble d’apprentissage
• y train est les sentiments d’ensemble d’apprentissage
3.3 Phase de Test et Interprétation
Après la phase d’apprentissage, nous passons à la phase de test pour évaluer notre
classifieur.
Pour la validation des performances, nous utilisons la méthode 80% 20% pour valider notre
modèle , telle que 80% utilisé dans la phase d’apprentissage, et 20% pour la phase de test.
les mesures de performance utilisées sont la précision, le rappel et le F1-mesure dont leurs
bases de calcul se fait par rapport à la Table 3.5 :
Prédictive
Réel
Poitive Négative
Positive VP FP
Négative FN VN
Table 3.5: Table de confusion
31

Avec :
VP : Vrai Positif
FP : Faux Positif
VN : Vrai Négatif
FN : Faux Négatif
Tel que les mesures que nous avons étudié sont présentés dans les formules suivantes :
Précision = VP/(VP + FP) : Proportion d’éléments bien classés pour une classe donnée.
Rappel = VP/(VP + FN) : Proportion d’éléments bien classés par rapport au nombre
d’éléments de la classe à prédite.
F1-mesure = 2 * Précision * Rappel/(Précision + Rappel) : Mesure de compromis entre
précision et rappel.
3.3.1 Présentation des résultats et discussion
La Table 3.6 montre les résultats du classifieur pour le modèle de présentation booléenne :
Classifieur Précision Rappel F1-mesure Support
Positive 0.43 0.31 0.36 107
Négative 0.57 0.51 0.54 126
Neutre 0.70 0.69 0.69 494
Hors du sujet 0.76 0.87 0.81 341
Avg/ Total 0.68 0.69 0.68 1023
Table 3.6: Résultats du classifieur en méthode booléenne
32

La Table 3.7 montre les résultats du classifieur pour le modèle de pondération TF-IDF:
Classifieur Précision Rappel F1-mesure Support
Positive 0.44 0.30 0.35 94
Négative 0.55 0.41 0.47 110
Neutre 0.73 0.88 0.79 494
Hors du sujet 0.92 0.79 0.85 325
Avg/ Total 0.74 0.75 0.74 1023
Table 3.7: Résultats du classifieur en méthode de pondération TF-IDF
Selon les résultats obtenus, il est claire que le classifieur pour le modèle de pondération
TF-IDF avec un F1- mesure de 0.74 est meilleur que claire que le classifieur pour le modèle
booléen avec un F1- mesure de 0.68.
Ceci peut s’interpréter par l’influence positive de l’aspect sémantique sur la qualité du
classifieur. Nous croyons que l’implication d’autres aspects linguistiques de négation, type
de mots (sujet, verbe, adjectifs. . . ) peuvent améliorer le processus d’analyse des sentiments.
Ceci dit, il existe d’autres algorithmes d’apprentissage automatiques appliqués à l’analyse
des sentiments Twitter. A titre d’exemple SVM Seport Vector Machine et ME Maximum
Entropy, .. etc, qui méritent d’être étudiés et comparés si l’espace de temps le permet.
33

CONCLUSION
L’analyse des sentiments se réfère à l’extraction automatique de texte évaluative, qui
aide à produire des résultats prédictifs. Dans ce mémoire nous avons étudié les différents
approches d’analyse des sentiments en particulier celles appliquées sur les données Twitter.
Nous avons implémenté la méthode probabiliste Na¨ıve Bayes en considérant modelés de
représentations de données, à savoir, les modèles booléen et celui utilisant une pondération
TF-IDF. L’expérimentation conduite sur l’ensemble de donnée Sanders Analytics révèlent
que la représentation sémantique TF-IDF donne de meilleurs résultats en terme de précision,
rappel et F-mesure.
Ceci étant dit, il faut noter que l’environnement matériel utilisé est relativement limité.
Par conséquent nous n’avons pas pu conduire nous expérimentations sur des corpus de tailles
importantes. En plus, cette limite nous a privé d’utiliser des méthodes de validation plus
sophistiquées de l’approche implémentée. Par ailleurs, le temps octroyé pour notre mémoire
ne nous a pas permis d’explorer d’autres méthodes de l’analyse des sentiments telles que la
méthode de Support Vector Machine (SVM), Maximum Entropy (ME).
En fin nous conjecturons que l’implication d’autres aspects linguistiques de négation, type
de mots (sujet, verbe, adjectifs. . . ) peuvent améliorer le processus d’analyse des sentiments.
34

Bibliographies
[1] Risson Romain, les réseaux sociaux : Facebook,Twitter ,Linkedln, Viadeo, Google+:
comprendre et maitriser ces nouveaux outils de communication, 2011.
[2] Serge Proulx, Mélanie Millette et Lorna Heaton Médias sociaux: enjeux pour la
communication. Presse de l’Université du Québec, 2011.
[3] Andreas M. Kaplan et Michael Haenlein Users of the world, unite! The challenges
and opportunities of Social Media. Paris, France .ESCP Europe, 2010.
[4] Bouillon Pierrette Traitement automatique des langues naturelles, paris, bruxelle
1998.
[5] Kumar Ela Natural Language Processing, India,I.K.International Publishing
House Pvt. Ltd 2011.
[6] Jean Véronis Natural Language Processing, URL : http://sites.univ-
provence.fr/veronis, 2001.
[7] Daniel Jurafsky et James H. Martin Speech and Language Processing, 2015.
[8] Meena Rambocas and Jo?o Gama Marketing Research : The Role of Sentiment
Analysis, FEP Economics and Managment, 2013.
[9] Nasukawa, Tetsuya et Jeonghee Yi Sentiment analysis: Capturing favorability
using natural language processing, Knowledge Capture, 2003.
[10] Kushal Dave, Steve Lawrence and David M. Pennock Mining the peanut gallery:
Opinion extraction and semantic classification of product reviews, 2003.
[11] Sanjiv R. Das et Mike Y. Chen Yahoo! for Amazon: Extracting market sentiment
from stock message boards,2001.
35

Références
[12] Satoshi Morinaga,Kenji Yamanish,Kenji Tateishi,and Toshikazu Fukushima
Mining product reputations on the web,Proceedings of the eighth ACM SIGKDD
international conference on Knowledge discovery and data mining, New
York, NY, USA, 2002.
[13] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up?: sentiment classi-
fication using machine learning techniques, Proceedings of the ACL-02 conference
on Empirical methods in natural language processing - Volume 10,Strouds-
burg, PA, USA 2002.
[14] R. M. Tong An operational system for detecting and tracking opinions in on-line dis-
cussion, In Working Notes of the ACM SIGIR 2001 Workshop on Operational
Text Classification 2001.
[15] Peter D. Turney, Thumbs up or thumbs down?: semantic orientation applied to
unsupervised classification of reviews, Proceedings of the 40th Annual Meeting
on Association for Computational Linguistics, Stroudsburg, PA, USA, 2002.
[16] Janyce Wiebe, Learning Subjective Adjectives from Corpora,Proceedings of the
Seventeenth National Conference on Artificial Intelligence and Twelfth Con-
ference on Innovative Applications of Artificial Intelligence, 2000.
[17] Bing Liu, Opinions, Sentiment, and Emotion in Text,Cambridge University Press,
2015.
[18] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis,Now Publishers
Inc, 2008.
[19] Huifeng Tang, Songbo Tan and Xueqi Cheng, A survey on sentiment detection
of reviews,Information Security Center, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing 100080, PR China, 2009.
[20] Faiza Belbachir, Expérimentation de fonctions pour la détection d’opinions dans les
blogs, Université de Paul Sabatier, Institut de Recherche en Informatique de
Toulouse 2010.
[21] Dominique Boullier et Audrey Lohard, Opinion mining et Sentiment analysis:
Méthodes et outils, 2012.
36

Références
[22] Mr. Saifee Vohra et Prof. Jay Teraiya, Applications and Challenges for Senti-
ment Analysis : A Survey, International Journal of Engineering Research Technology
(IJERT), 2013.
[23] Sigrid Maurel, Paolo Curtoni et Luca Dini, L’analyse des sentiments dans les
forums, CELI France, SAS.
[24] Arti Buche, Dr. M. B. Chandak and Akshay Zadgaonkar, Opinion mining
and analysis:a survey, International Journal on Natural Language Computing
(IJNLC), India 2013.
[25] G.Vinodhini and RM.Chandrasekaran, Sentiment Analysis and Opinion Mining:
A Survey,International Journal of Advanced Research in Computer Science
and Software Engineering ,India 2012.
[26] Vivek Kumar Singh and Debanjan Mahata, A clustering and opinion mining
approach to socio-political analysis of the blogosphere, Computational Intelligence
and Computing Research (ICCIC), 2010 IEEE International Conference on
2010.
[27] Alexander Pak and Patrick Paroubek, Twitter as a Corpus for Sentiment
Analysis and Opinion Mining, Université de Paris-Sud, Laboratoire LIMSI-
CNRS,France 2010.
[28] Matthew Eric Glassman, Jacob R. Straus and Colleen J. Shogan, Social Net-
working and Constituent Communications: Members Use of Twitter and Facebook Dur-
ing a Two-Month Period in the 112th Congress,Congressional Research Service,
2009.
[29] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passon-
neau, Sentiment analysis of Twitter data, LSM 11 Proceedings of the Workshop
on Languages in Social Media,2011.
[30] Laurent Dijoux, Boostez votre business avec Twitter,Almabic, 2009.
[31] Fred Colantonio, Communication professionnelle en ligne: comprendre et exploiter
les médias et réseaux sociaux,Edipro, 2011.
37

Références
[32] Tim O’Reilly and Sarah Milstein, The Twitter Book, 2012.
[33] Vishal A. Kharde and S.S. Sonawane, TSentiment Analysis of Twitter Data: A
Survey of Techniques,International Journal of Intelligent Systems and Appli-
cations(IJISA), 2016.
[34] Prem Melville, Wojciech Gryc and Richard D. Lawrence, Sentiment analysis
of blogs by combining lexical knowledge with text classification ,KDD 09 Proceedings
of the 15th ACM SIGKDD international conference on Knowledge discovery
and data mining, 2009.
[35] Alec Go, Richa Bhayani and Lei Huang, Twitter sentiment classification using
distant supervision, 2009.
[36] Luciano Barbosa and Junlan Feng, Robust sentiment detection on Twitter from
biased and noisy data, COLING 10 Proceedings of the 23rd International Con-
ference on Computational Linguistics: Posters, 2010.
[37] Yiannis Kompatsiaris, Bernard Merialdo and Shiguo Lian, TV Content Anal-
ysis: Techniques and Applications, CRC Press, 2011.
[38] Vasileios Lampos and Nello Cristianini , Tracking the flu pandemic by monitoring
the Social Web.
[39] Brendan O’Connor, Ramnath Balasubramanyan, Bryan R. Routledge et
Noah A. Smith , From Tweets to Polls: Linking Text Sentiment to Public Opin-
ion Time Series, the International AAAI Conference on Weblogs and Social
Media, 2010.
[40] Laura Robinson, Shelia R. Cotton et Jeremy Schulz, Communication and
Information Technologies Annual: Politics and Participation, Emerald, 2015.
[41] Yelena Mejova, Ingmar Weber et Michael W.Macy, Twitter: A Digital Socio-
scope, Cambrdige University Press, 2015.
[42] Takeshi Sakaki, Makoto Okazaki et Yutaka Matsuo, Earthquake shakes Twitter
users: real-time event detection by social sensors, WWW 10 Proceedings of the
19th international conference on World wide web, 2010.
38

R´ef´erences
[43] Francis Harvey et Yee Leung, Advances in Spatial Data Handling and Analysis:
Select Papers from the 16th IGU Spatial Data Handling Symposium, Springer, 2015.
[44] Basant Agarwal et Namita Mittal, Prominent Feature Extraction for Sentiment
Analysis, Cham Heidelberg New York Dordrecht London, 2013.
[45] Willi Richert et Luis Pedro Coelho, Building Machine Learning Systems with
Python, Packt Publishing Ltd., Birmingham B3 2PB, UK, 2013.
39

Analyse des sentiments cas twitter - univ ghardaia algerie

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

Similar to Analyse des sentiments cas twitter - univ ghardaia algerie

Similar to Analyse des sentiments cas twitter - univ ghardaia algerie (20)

More from Soumia Elyakote HERMA

More from Soumia Elyakote HERMA (6)

Recently uploaded

Recently uploaded (20)

Analyse des sentiments cas twitter - univ ghardaia algerie