Voici la présentation que nous avons utilisé pour soutenir notre projet de datamining.
L'étude portait sur la détection des comportements retardataires.
Utiliser les techniques du Datamining - Appliquer les méthodes du Datamining dans un contexte social Reconnaître un retardataire chronique - Comment déceler chez quelqu’un le fait qu’il aura tendance à être en retard? Raisons de ce choix: - Parce que tout le monde connais au moins quelqu’un qui ne peut pas s’empêcher d’être en retard. - Les retards réguliers peuvent avoir des conséquences très négative ou travail et dans la vie perso Exemple d’utilisation de l’étude: - campagne de recrutement (milieu professionnel, sportif, universitaire) - optimiser les rendez-vous avec des clients (qui peuvent être en retard) - contexte projet : les membres sont sans cesse à la bourre.
Approche prédictive - Ici la cible est clairement définie, il s’agit donc d’une approche prédictive Questions - Afin de mettre en évidence des liens de causalité entre « une tendance à être en retard » et des habitudes caractérisant le sondé, nous avons mis en place diverses questions dont certaines, dîtes discriminantes, vont permettre de savoir s’ils sont souvent en retard, et d’autres, dîtes à signes faibles, vont permettre de mieux les connaître. Nous avons tâché d’alterner questions ouvertes (plus précises mais fatigante) et questions fermées (faciles mais ennuyeuses à long terme, et peuvent créer de la frustration si mal formulées) Ex : Nous avions une question qui demandait le nombre de relation. Il y avait ambiguïté entre « relations sexuelles » (incomptables) ou « relations sentimentales » (là aussi ambiguïté: flirt, aventure, sérieuse?). Du coup, on a modifié la question -> Combien avez-vous eu de relations sentimentales stables jusqu’à maintenant?
Dans la constitution de notre panel, notre objectif principal était la diversité. Nous avons donc ciblé dans nos contacts des personnes aux profils, intérêts, gouts (etc.) différents.
Différents modes de diffusion La diffusion du questionnaire (émission) s’est faite par emails (public ciblé) et via réseaux sociaux (public moins ciblé). Ensuite, des relances ont été faites par téléphone et par messagerie instantanée.
Points clés : - ANONYMAT, pour que les utilisateurs osent se confier, sans retenue (questions relatives - ACCES AUX RESULTATS, récompense, pour éveiller leur curiosité. (Cette présentation a été mise à disposition sur SlideShare après étude) - BROUILLAGE DE PISTE, ici on prétend vouloir étudier les corrélations alimentations/sexualité, alors qu’on étudie en fait le comportement face au respect des horaires.
Quelques chiffres - Répartition homme/femme -> Succès - Zone géographique -> Echec, seulement Ile de France et Sud-Ouest - Origine -> Echec, Principalement européens - Activité professionnel -> Moyen. - Orientation sexuelle -> Succès (similaire à la répartition constatée en France) - Situation maritale -> Moyen. Les échecs ne seront pas pris en considération lors de l’analyse des données.
La première phase de mailing a été la plus efficace. Ceci est directement dû au ciblage pratiqué. Les personnes, plutôt proches, se sont senties concernées par le sujet, ou ont répondu à notre « appel à l’aide ». La phase de publication sur le mur Facebook de Sylvain, a permis d’informer plusieurs centaines de personnes de l’existence du questionnaire. Ici c’est le nombre qui joue en faveur des résultats, et non plus le ciblage. La deuxième vague de mailing s’est avérée bien moins efficace que la première, sans doute car elle était bien moins ciblée. Les relances ont eu leurs effets, pour ceux qui avaient déjà rangé le mail, ou qui n’avait pas vu le message sur Facebook. Les divers posts sur des forums (aufeminin.com, jeuxvideo.com, doctissimo.fr, etc..) et sur twitter se sont avérés sans effet notable.
Colonne commentaires La colonne commentaires nous permettait de savoir comment les sondés avaient perçus le questionnaire. Elle n’était pas destinée à influer les résultats Macro de pondération La macro de pondération tendance_retard que nous avons développé permettaient de définir, à partir de critères arbitraires, un coefficient de tendance au retard. Ce coefficient était par la suite interprété (de façon arbitraire) afin de déterminer si oui ou non le sondé avait des tendances à être en retard. Transformations CSV Afin d’être importé dans SIPINA, le fichier des résultats a du être converti sous un format CSV.
Macro de pondération calcul_retard Sur la question: Vous avez un train apprendre, vous arrivez.. 1h avant -3 15min avant -1 Vous courrez et l’attrapez un extremis +3 Vous l’avez raté +7 Test de plusieurs coefs. Celui là était le mieux. Résultats de -8 à 21.
Macro de pondération calcul_retard Sur la question: Vous avez un train apprendre, vous arrivez.. 1h avant -3 15min avant -1 Vous courrez et l’attrapez un extremis +3 Vous l’avez raté +7 Test de plusieurs coefs. Celui là était le mieux. Résultats de -8 à 21.
C4.5 KINLAN Détermination signaux faibles: -> Les femmes homosexuelles sont toujours en retard (pas significatif car seulement 2) -> Les hétéros qui ne font pas souvent du sport et qui boivent du jus d’orange le matin ne le sont jamais -> Celles qui font du sport souvent et qui fument non plus.
C4.5 KINLAN aussi Signaux faibles: - Les hétéros, en concubinage, et qui sont opposés à l’adoption pour les homosexuels ne sont jamais en retard. - Les hétéros célibataires, contre l’adoption, et qui ne font jamais de sport sont eux toujours en retard.
Réactions très positives de certiains sondés qui ont trouvé là l’occasion de réfléchir sur le soi, notamment sur les questions relatives aux relations amoureuses. Malgré notre attachement à avoir un panel représentatif, on a observé dans l’arbre qu’on manquait de similitudes de comportements