SlideShare a Scribd company logo
1 of 14
Download to read offline
w h i t e p a p e r
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
Découvrir et exploiter
le web invisible pour la
veille stratégique
Accédez à des milliers de ressources
cachées de haute qualité
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
Avertissement
Ce document a été réalisé par la société Digimind.
Le contenu de ce document est protégé par le droit d’auteur. Son contenu est la propriété de Digimind et de ses auteurs respectifs. Il peut être reproduit en partie
sous forme d’extraits à la condition expresse de citer Digimind comme auteur et d’indiquer l’adresse http://www.digimind.com. Pour toute information complé-
mentaire, vous pouvez contacter Digimind par mail à l’adresse contact@digimind.com ou par téléphone au 01 53 34 08 08.
Digimind, mai 2008.
Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés
Sommaire
LEWEB INVISIBLE : CONCEPTS ET DEFINITION........................................................05
L’internet n’est pas le web........................................................................................................................05
LeWebVisible....................................................................................................................................................05
LeWeb Invisible : Définition et structure.....................................................................................05
UnWeb Invisible, Caché ou Profond ?..........................................................................................09
CARACTERISTIQUES DUWEB INVISIBLE :TAILLE ET QUALITE................10
La taille du web visible et invisible : estimations...................................................................10
Contenu et qualité du web invisible.............................................................................................12
COMMENT IDENTIFIER DES SITES DUWEB INVISIBLE.....................................15
Identifier des sources via les répertoires et annuaires spécialisés..........................15
Rechercher des ressources spécialisées via votre requête...........................................23
Exemple de ressources duWeb Invisible....................................................................................24
DIGIMIND ET LAVEILLE SUR LEWEB INVISIBLE......................................................26
Les spécificités d’une veille automatisée sur leWeb Invisible...................................26
Comparatif des principaux outils de recherche / surveillance du web
invisible...................................................................................................................................................................30
Les avantages de l’approche de Digimind pour la surveillance du Web
Invisible...................................................................................................................................................................30
A PROPOS DES AUTEURS.................................................................................................................32
Digimind Consulting...................................................................................................................................32
Christophe ASSELIN......................................................................................................................................32
NOTES…..............................................................................................................................................................33
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
[extraits]
Téléchargez l’intégralité de ce document et
l’ensemble des publications de Digimind :
http://www.digimind.fr/actus/actu/publications
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
Pour rechercher des informations et effectuer votre veille sur le web, l’utilisation des seuls moteurs et annuaires généralistes vous privera de l’identifica-
tion de centaines de milliers de sources…. Pourquoi ?
Parce que des moteurs comme Google, MSN ou Yahoo! Search1
ou des répertoires tels que Yahoo! Directory2
ne vous donnent accès qu’à une petite
partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d’accéder à une zone immense du web,
le Web Invisible, espace beaucoup plus important que le web visible.
Lors d’une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous
privez de la surface immergée, en moyenne 50 fois plus importante.
Sur le web, c’est la même chose ! Se contenter du web visible pour votre veille revient à ne pas explorer une zone invisible environ 500 fois plus
volumineuse, comportant des centaines de milliers de ressources de grande valeur.
Les ressources duWeb Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu’elles
sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.
Ce document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites apparte-
nant à ce web“profond”.
Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en
œuvre un véritable processus de veille industrielle sur les ressources du Web Invisible.
Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés
Le Web Invisible : concepts
et définition
Pourquoi un web invisible ?
Pour comprendre le web invisible, Il convient d’abord de rappeler ce
que sont le web et sa zone visible.
L’INTERNET N’EST PAS LEWEB
Il existe souvent une confusion et un amalgame sémantique entre le
web et l’internet. Ce sont pourtant 2 concepts différents. L’internet, ou
Net, est un réseau informatique mondial constitué d’un ensemble de
réseaux nationaux, régionaux et privés, interconnectés entre eux (INTER-
connected NETworks). Il relie des ressources de télécommunication et
des ordinateurs serveurs et clients.
Sur ce réseau, vous pouvez accéder à un certain nombre de services via
des protocoles de communication spécifiques :
- le World Wide Web (protocole http://www)
- le Mail (smtp)
- Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med.
oncology
- le P2P (via des logiciels clients).
et également le FTP, Gopher, …
LEWEBVISIBLE
Pour appréhender la notion de Web Visible, il est nécessaire de com-
prendre le fonctionnement d’un moteur de recherche.
Un moteur de recherche “aspire” puis indexe des pages web. Pour ce
faire, ses robots (ou spider) vont parcourir les pages web en naviguant
de liens en liens, et passer ainsi d’une page à une autre. Ce robot va
archiver sur les serveurs du moteur une version de chaque page web
rencontrée.
Ainsi, Google dispose de plus de 10 000 serveurs répartis sur plusieurs
états (Californie, Irlande, Suisse…) et installés dans des salles dédiées.
Ces serveurs connectés entre eux hébergent notamment les milliards
de pages web aspirées.
Cette version archivée des pages au moment du passage du robot est
d’ailleurs disponible via la fonction “Cache”disponible sur certains mo-
teurs comme Google,Yahoo!, Clusty ou Gigablast (copies d’écran ci-des-
sous).
Lors d’une recherche sur un moteur, l’internaute lance une requête sur
les bases de données de ces serveurs.
LEWEB INVISIBLE :
DEFINITION ET STRUCTURE
Le Web Invisible est constitué des documents web mal ou non indexés
par les moteurs de recherche généralistes conventionnels.
Les fonctions“Cache”du moteurYahoo!
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
En effet, le fonctionnement des moteurs pour “aspirer”le web implique
que, d’une part, les pages soient bien liées entre elles via les liens
hypertexte (http://) qu’elles contiennent et que, d’autre part, elles
soient identifiables par les robots du moteur. Or dans
certains cas, ce parcours de liens en liens et cette
identification de pages est difficile, voire impossible.
Une partie du web est en effet peu ou non accessible
aux moteurs de recherche pour plusieurs raisons :
1- Les documents ou bases de données sont trop
volumineux pour être entièrement indexés.
Prenons l’exemple de l’IMDB3
. L’Internet Movie
Database, une base de donnée en libre accès
consacrée au cinéma répertorie plus de 7 millions de pages descriptives
consacrées aux films et acteurs, représentant chacune une page web.
Soit plus de 7 millions de pages. Les moteurs conventionnels n’indexent
pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon
les moteurs). C’est aussi le cas de plusieurs milliers de bases de données
professionnelles en ligne comme PubMed, certaines n’étant pas
indexées du tout. D’autre part, les moteurs n’indexent
pas la totalité du contenu d’une page lorsque celle-ci
est très volumineuse : Google et Yahoo! archivent les
pages dans une limite de 500k et 505k.
2- les pages sont protégées par l’auteur (balise
meta qui stoppe le robot des moteurs)
Certains sites sont protégés par leur créateur ou
gestionnaire (webmaster), qui, grâce à un fichier
robot.txt inséré dans le code des pages, interdit leur
accès aux robots des moteurs. L’utilisation de ce fichier robot.txt est
effectuée pour protéger le copyright des pages, limiter leur visite à un
groupe restreint d’internautes (auquel on fournira l’adresse, inconnue
des moteurs) ou préserver certains sites d’un accès trop fréquent
ralentissant les serveurs. Ainsi, le site du journal Le Monde interdit aux
robots des moteurs de recherche l’accès à ses pages payantes. De cette
manière, il évite que les moteurs archivent des pages payantes et les
mettent à disposition gratuitement via leur fonction“Cache”.
3- les pages sont générées seulement dynamiquement, lors d’une
requête par exemple
De nombreux sites web génèrent des pages dynamiquement, c’est-à-
dire uniquement en réponse à une requête sur leur moteur interne. Il
n’existe pas alors d’URL4
(adresse) statique des pages que les moteurs
pourraient parcourir puisque les robots des moteurs n’ont pas la faculté
de taper des requêtes. Ainsi, lorsque vous faites une recherche sur des
bases de données ou moteurs, certaines pages générées en réponse à
votre question sont structurées avec des ? et , de cette manière par
exemple : query.fcgi?CMD=search. Ce type de page n’est généralement
pas ou mal indexée par les moteurs. Exemple :
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=searchDB=Genome
“Leweb invisible
est constitué des
documentsweb
mal ou non indexés
par les moteurs
de recherche
conventionnels”
La célèbre base PubMed de la National Library of Medecine donnant notamment accès à
plus de 15 millions d’articles.
Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés
4-lespagessontprotégéesavecuneauthentificationparidentifiant
(login) et mot de passe.
De nombreux sites, qu’ils soient payants ou gratuits, protègent tout ou
partie de leur contenu par mot de passe. Les robots de moteurs n’ayant
pas la faculté de taper des mots dans des formulaires complexes, ces
pages ne leur sont pas accessibles.
5 - Les formats des documents
Il y a encore quelques années, on incluait dans le Web Invisible toutes
les pages aux formats autres que le html, seul format reconnu et indexé
par les moteurs.
En effet, jusqu’en 2001, les moteurs n’indexaient pas les formats PDF
(Adobe) et Microsoft Office (Excel, Word, Power Point…). Depuis l’été
2001, Google indexe le PDF et, depuis octobre 2001, il indexe les fichiers
Word (.doc), Excel (.xls), Powerpoint (.ppt), Rich Text Format (.RTF),
PostScript (.ps) et d’autres encore. Le format Flash, lui, a commencé à
être indexé en 2002 par le moteur AlltheWeb5
Aujourd’hui, la plupart des grands moteurs à large index (Google,
Yahoo!, MSN, Exalead, Gigablast6
) mémorisent et indexent ces formats
de documents. Toutefois, comme nous l’avons vu, l’archivage d’une
page web est limité à 500 ou 505 k sur Google et Yahoo! Search. Les
documents dépassant ce seuil seront donc partiellement indexés.
On le voit, la structure du web dit “invisible” peut donc évoluer dans
le temps en fonction des avancées technologiques des moteurs de
recherche. D’”invisibles” avant 2001, certains formats sont devenus
“visibles”ensuite.
6-Lespagessontmalliéesentreellesousontorphelines(aucunlien
présent sur d’autres pages ne pointent vers elles).
Plutôt qu’une toile, le web est en fait un immense papillon.
Pourquoi ?
Nous avons vu que le fonctionnement des robots des moteurs de
recherche impliquait que toutes les pages soient liées entre elles pour
qu’elles soient visibles. Or, ce n’est pas le cas.
Jusqu’en 2000, on avait coutume de représenter le web à la manière
d’une toile d’araignée, supposant ainsi que les pages web sont toutes
bien liées entre elles, selon la même densité de liens entrant et sortant,
constituant ainsi un ensemble homogène de ramifications. Ainsi, en
partant de certaines URLs bien définies, les robots devaient forcément
L’authentification pour l’accès au site d’une fédération professionnelle.
Les pages web peu accessibles ou inaccessibles aux moteurs de recherche conventionnels
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
parvenir à parcourir le web en quasi-totalité.
Or, en juin 2000, des chercheurs de IBM (Almaden Research Center,
Californie), Compaq et Altavista ont proposé une toute autre
représentation du web, plus proche de la réalité…
Dans leur étude“Graph structure in the web”7
, les 8 chercheurs analysent
200 millions de pages et 1,5 millions de liens collectés par le robot
d’Altavista en 3 étapes, de mai à octobre 1999.
L’analyse de ces pages révèle que le web se structurerait en 4 parties :
1.Lapartiecentrale,leCœur: SCC(GiantStronglyConnectedComponent),
soit 27,5 % des pages web analysées. Toutes les pages web sont bien
connectées entre elles via des liens directs.
2 et 3. Les zones IN et OUT : La partie IN (21,4%) comprend les pages
“source” : ces pages comportent des liens qui pointent vers le cœur
(SCC) mais l’inverse n’est pas vrai : aucun lien présent dans le cœur ne
pointent sur ces pages. Cela peut concerner de nouvelles pages pas
encore découvertes et donc non“liées”par des liens pointant vers elles.
La partie OUT (21,4%) comprend au contraire des pages de“destination”:
ces pages sont accessibles et liées à partir du noyau mais en retour, elles
n’ont pas de liens qui pointent vers le cœur. C’est le cas, par exemple, de
sites“Corporate”de sociétés qui ne comportent que des liens internes et
ne proposent pas de liens sortant vers d’autres sites.
4. Les “Tendrils” : (21,4%) :
Ce terme métaphorique,
emprunté à la botanique,
désigne des filaments. Ceux-
ci représentent des pages
qui ne sont pas liées au
cœur SCC, et sans liens qui
pointent vers elles à partir
du cœur. Ces filaments ne sont connectés qu’aux zones IN et OUT via
des liens sortants de la zone IN et des liens entrants dans la zone OUT.
L’étude révèle par ailleurs que si l’on choisit une page au hasard au sein
des zones IN et OUT, la probabilité qu’un chemin direct existe de la
source (IN) à la destination (OUT) est de seulement 24% (représenté ici
par le“tube”).
- Enfin, 8,3% des pages constituent des îlots, totalement déconnectés
du reste du web. Ces pages sont donc orphelines, sans liens pointant
vers elles et sans liens sortant, qui auraient permis aux sites destinataires
de les trouver. Pour identifier ces pages, il n’existe donc pas d’autres
solutions que de connaître leurs adresses fournies par leurs créateurs.
Comment est-il possible que des pages soient mal liées ou non liées ?
Ces pages de sites web peuvent être mal référencées ou non référencées
involontairement dans les index de moteurs :
- Par exemple si ses auteurs ne se sont pas préoccupés d’optimiser ces
pages (choix adéquat des mots clés, des titres) afin qu’elles soient visibles
parmi les premiers résultats des moteurs. C’est ensuite un cercle vicieux
: les algorithmes de moteurs comme Google privilégient la popularité
des sites pour un bon classement dans les pages de résultats (plus le
“Leweb, plutôt
qu’unetoile
d’araignée, est
structurée comme
un immense
papillon”
Connectivity of the web. © Etude“Graph structure in the web”
Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés
nombre de liens pointant vers une page est important, plus cette page
aura une chance d’être bien classée au sein des résultats). Une page web
mal classée dès le départ sera moins visible, donc moins découverte par
les internautes et bénéficiera de moins de liens. Ces pages, au mieux,
stagneront ou descendront dans les profondeurs des pages de résultats
des moteurs.
- Une page placée sur le web sans liens pointant vers elle demeurera
invisible des moteurs de recherche. Cela est le cas pour des milliers de
documents dont les auteurs ne connaissent pas
ou se soucient peu des principes de visibilité de
leurs pages (documents de recherche, documents
techniques..).
Par ailleurs, on voit sur cette représentation du web
en papillon que certaines pages demeurent tout à
fait invisibles et d’autres seulement moins visibles
…Il existe donc des niveaux de visibilité. Aussi le
terme “invisible”au sens strict n’est pas forcément le
plus approprié…
UNWEB INVISIBLE, CACHE OU PROFOND ?
Plutôt que de parler d’unWeb Invisible, certains spécialistes ont tenté de
préciser le concept et de l’illustrer différemment.
Ainsi, Chris Sherman et Gary Price proposent dans leur ouvrage “The
Invisible Web”8
de distinguer 4 types de web invisible :
- The Opaque Web : les pages qui pourraient être indexées par les mo-
teurs mais qui ne le sont pas (à cause de la limitation d’indexation du
nombre de pages d’un site, de leur fréquence d’indexation trop rare, de
liens absents vers des pages ne permettant donc pas un crawling de
liens en liens)
- The Private Web : concerne les pages web disponibles mais volontaire-
ment exclues par les webmasters (mot de passe, metatags ou fichiers
dans la page pour que le robot du moteur ne l’indexe pas).
- The Proprietary web : les pages seulement accessibles pour les person-
nes qui s’identifient. Le robot ne peut donc pas y accéder.
- The Truly Invisible Web : contenu qui ne peut être indexé pour des rai-
sons techniques. Ex: format inconnu par le moteur, pages générées dy-
namiquement.
Le terme de Web Invisible a été employé pour la première fois en
1994 par le DR Jill Ellsworth pour évoquer une information dont le
contenu était invisible des moteurs de recherche conventionnels.
Mais dans son étude“The Deep Web: Surfacing Hidden
Value“ , Michael K. Bergman estime, avec raison, que le
terme deWeb Invisible est inapproprié. En effet, la seule
chose d’invisible l’est aux“yeux”des robots des moteurs.
Des technologies comme Digimind Evolution permet-
tent d’accéder et de surveiller ce web invisible.
Aussi, plutôt que le web visible et invisible, l’étude de
BrightPlanet préfère évoquer un “Surface Web” et un
“Deep web”(web profond). En effet, le problème n’est
pas tant la visibilité que l’accessibilité par les moteurs. Il existe donc un
web de surface que les moteurs parviennent à indexer et un web pro-
fond, que leurs technologies ne parviennent pas encore à explorer, mais
qui est visible à partir d’autres technologies perfectionnées.
On pourrait donc comparer le web à un gigantesque iceberg (en per-
pétuelle expansion) présentant un volume de ressources immergées
beaucoup plus important que les ressources de surface. Comme le
web, cet iceberg verrait son volume total augmenter constamment, et
la structure de ses parties immergées et émergées se modifier avec le
temps (en fonction de l’évolution des technologies des moteurs).
Mais quelle peut être la taille et la composition de ces 2 parties de l’ice-
berg ?
Si en moyenne, le volume de la partie immergée d’un iceberg est 50 fois
plus important que celui de sa partie émergée, les proportions du web
visible et invisible sont très différentes…
“leWeb n’est pas
réellement invisible
mais difficilement
accessible. Il faut
plutôt parler de
web profond ”
Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 25© Digimind - Tous droits réservés
Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 33© Digimind - Tous droits réservés
Dans la même collection
White Papers
• «LeWeb 2.0 pour la veille et la recherche d’information : Exploitez les ressources duWeb Social»
Christophe Asselin, ExpertVeille Internet, Digimind
• «Blogs et RSS, des outils pour la veille stratégique»
Christophe Asselin, ExpertVeille Internet, Digimind
• «Réputation Internet : Ecoutez at analysez le buzz digital»
Christophe Asselin, ExpertVeille Internet, Digimind
• «Evaluer le Retour sur Investissement d’un logiciel de veille»
Edouard Fillias, ConsultantVeille Stratégique, Digimind
• «Catégorisation automatique de textes»
• «Benchmark des solutions de veille stratégique»
Red Books
• Biotechnologie
• Nanotechnologie
• Nutrition
• RFID
• Risk management
• Contrefaçon
• Moyens de paiement
A télécharger sur http://www.digimind.fr/actus/publications
w w w . d i g i m i n d . c o m
b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r
Téléchargez l’intégralité de ce document et
l’ensemble des publications de Digimind :
http://www.digimind.fr/actus/actu/publications

More Related Content

More from Digimind

La performance des agences digitales sur les réseaux sociaux
La performance des agences digitales sur les réseaux sociauxLa performance des agences digitales sur les réseaux sociaux
La performance des agences digitales sur les réseaux sociauxDigimind
 
Étude : Uber VS taxis sur les réseaux sociaux
Étude : Uber VS taxis sur les réseaux sociauxÉtude : Uber VS taxis sur les réseaux sociaux
Étude : Uber VS taxis sur les réseaux sociauxDigimind
 
Digimind etudes sectorielles-starbucksca
Digimind etudes sectorielles-starbuckscaDigimind etudes sectorielles-starbucksca
Digimind etudes sectorielles-starbuckscaDigimind
 
Étude la performance et visibilité des métropoles labellisées French Tech sur...
Étude la performance et visibilité des métropoles labellisées French Tech sur...Étude la performance et visibilité des métropoles labellisées French Tech sur...
Étude la performance et visibilité des métropoles labellisées French Tech sur...Digimind
 
Étude : Les Organisations Non Gouvernementales sur les réseaux sociaux
Étude :  Les Organisations Non Gouvernementales sur les réseaux sociauxÉtude :  Les Organisations Non Gouvernementales sur les réseaux sociaux
Étude : Les Organisations Non Gouvernementales sur les réseaux sociauxDigimind
 
Étude la marque Lego sur les réseaux sociaux
Étude la marque Lego sur les réseaux sociauxÉtude la marque Lego sur les réseaux sociaux
Étude la marque Lego sur les réseaux sociauxDigimind
 
Étude : Les banques sur les réseaux sociaux
Étude : Les banques sur les réseaux sociauxÉtude : Les banques sur les réseaux sociaux
Étude : Les banques sur les réseaux sociauxDigimind
 
Twitter france-profiling-one
Twitter france-profiling-oneTwitter france-profiling-one
Twitter france-profiling-oneDigimind
 
Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative
Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative
Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative Digimind
 
Analyse Sectorielle Alcools de Luxe 2013
Analyse Sectorielle Alcools de Luxe 2013Analyse Sectorielle Alcools de Luxe 2013
Analyse Sectorielle Alcools de Luxe 2013Digimind
 
Analyse Sectorielle Grande Distribution 2013
Analyse Sectorielle Grande Distribution 2013Analyse Sectorielle Grande Distribution 2013
Analyse Sectorielle Grande Distribution 2013Digimind
 
Analyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le Web
Analyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le WebAnalyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le Web
Analyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le WebDigimind
 
Analyse: Instagram vs Vine
Analyse: Instagram vs VineAnalyse: Instagram vs Vine
Analyse: Instagram vs VineDigimind
 
Analyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le Web
Analyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le WebAnalyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le Web
Analyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le WebDigimind
 
Barometre E-Réputation 2012
Barometre E-Réputation 2012Barometre E-Réputation 2012
Barometre E-Réputation 2012Digimind
 
20 Bonnes Pratiques en E-Réputation
20 Bonnes Pratiques en E-Réputation20 Bonnes Pratiques en E-Réputation
20 Bonnes Pratiques en E-RéputationDigimind
 
Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011Digimind
 
Digimind: Le Paysage de la Réputation d'Entreprise
Digimind: Le Paysage de la Réputation d'EntrepriseDigimind: Le Paysage de la Réputation d'Entreprise
Digimind: Le Paysage de la Réputation d'EntrepriseDigimind
 
Le Web 2.0 pour la Veille
Le Web 2.0 pour la VeilleLe Web 2.0 pour la Veille
Le Web 2.0 pour la VeilleDigimind
 
Blogs et RSS pour la Veille
Blogs et RSS pour la VeilleBlogs et RSS pour la Veille
Blogs et RSS pour la VeilleDigimind
 

More from Digimind (20)

La performance des agences digitales sur les réseaux sociaux
La performance des agences digitales sur les réseaux sociauxLa performance des agences digitales sur les réseaux sociaux
La performance des agences digitales sur les réseaux sociaux
 
Étude : Uber VS taxis sur les réseaux sociaux
Étude : Uber VS taxis sur les réseaux sociauxÉtude : Uber VS taxis sur les réseaux sociaux
Étude : Uber VS taxis sur les réseaux sociaux
 
Digimind etudes sectorielles-starbucksca
Digimind etudes sectorielles-starbuckscaDigimind etudes sectorielles-starbucksca
Digimind etudes sectorielles-starbucksca
 
Étude la performance et visibilité des métropoles labellisées French Tech sur...
Étude la performance et visibilité des métropoles labellisées French Tech sur...Étude la performance et visibilité des métropoles labellisées French Tech sur...
Étude la performance et visibilité des métropoles labellisées French Tech sur...
 
Étude : Les Organisations Non Gouvernementales sur les réseaux sociaux
Étude :  Les Organisations Non Gouvernementales sur les réseaux sociauxÉtude :  Les Organisations Non Gouvernementales sur les réseaux sociaux
Étude : Les Organisations Non Gouvernementales sur les réseaux sociaux
 
Étude la marque Lego sur les réseaux sociaux
Étude la marque Lego sur les réseaux sociauxÉtude la marque Lego sur les réseaux sociaux
Étude la marque Lego sur les réseaux sociaux
 
Étude : Les banques sur les réseaux sociaux
Étude : Les banques sur les réseaux sociauxÉtude : Les banques sur les réseaux sociaux
Étude : Les banques sur les réseaux sociaux
 
Twitter france-profiling-one
Twitter france-profiling-oneTwitter france-profiling-one
Twitter france-profiling-one
 
Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative
Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative
Cas Client: Lafarge - Rèalisation d'une Plateforme de Veille Collaborative
 
Analyse Sectorielle Alcools de Luxe 2013
Analyse Sectorielle Alcools de Luxe 2013Analyse Sectorielle Alcools de Luxe 2013
Analyse Sectorielle Alcools de Luxe 2013
 
Analyse Sectorielle Grande Distribution 2013
Analyse Sectorielle Grande Distribution 2013Analyse Sectorielle Grande Distribution 2013
Analyse Sectorielle Grande Distribution 2013
 
Analyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le Web
Analyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le WebAnalyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le Web
Analyse Buzz Bourget 2 : Le Grand Public ne fait pas Recette sur le Web
 
Analyse: Instagram vs Vine
Analyse: Instagram vs VineAnalyse: Instagram vs Vine
Analyse: Instagram vs Vine
 
Analyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le Web
Analyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le WebAnalyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le Web
Analyse Buzz Bourget 1 : Airbus et Boeing au Coude à Coude sur le Web
 
Barometre E-Réputation 2012
Barometre E-Réputation 2012Barometre E-Réputation 2012
Barometre E-Réputation 2012
 
20 Bonnes Pratiques en E-Réputation
20 Bonnes Pratiques en E-Réputation20 Bonnes Pratiques en E-Réputation
20 Bonnes Pratiques en E-Réputation
 
Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011
 
Digimind: Le Paysage de la Réputation d'Entreprise
Digimind: Le Paysage de la Réputation d'EntrepriseDigimind: Le Paysage de la Réputation d'Entreprise
Digimind: Le Paysage de la Réputation d'Entreprise
 
Le Web 2.0 pour la Veille
Le Web 2.0 pour la VeilleLe Web 2.0 pour la Veille
Le Web 2.0 pour la Veille
 
Blogs et RSS pour la Veille
Blogs et RSS pour la VeilleBlogs et RSS pour la Veille
Blogs et RSS pour la Veille
 

Le Web Invisible pour la Veille

  • 1. w h i t e p a p e r b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r Découvrir et exploiter le web invisible pour la veille stratégique Accédez à des milliers de ressources cachées de haute qualité
  • 2. b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r Avertissement Ce document a été réalisé par la société Digimind. Le contenu de ce document est protégé par le droit d’auteur. Son contenu est la propriété de Digimind et de ses auteurs respectifs. Il peut être reproduit en partie sous forme d’extraits à la condition expresse de citer Digimind comme auteur et d’indiquer l’adresse http://www.digimind.com. Pour toute information complé- mentaire, vous pouvez contacter Digimind par mail à l’adresse contact@digimind.com ou par téléphone au 01 53 34 08 08. Digimind, mai 2008.
  • 3. Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés Sommaire LEWEB INVISIBLE : CONCEPTS ET DEFINITION........................................................05 L’internet n’est pas le web........................................................................................................................05 LeWebVisible....................................................................................................................................................05 LeWeb Invisible : Définition et structure.....................................................................................05 UnWeb Invisible, Caché ou Profond ?..........................................................................................09 CARACTERISTIQUES DUWEB INVISIBLE :TAILLE ET QUALITE................10 La taille du web visible et invisible : estimations...................................................................10 Contenu et qualité du web invisible.............................................................................................12 COMMENT IDENTIFIER DES SITES DUWEB INVISIBLE.....................................15 Identifier des sources via les répertoires et annuaires spécialisés..........................15 Rechercher des ressources spécialisées via votre requête...........................................23 Exemple de ressources duWeb Invisible....................................................................................24 DIGIMIND ET LAVEILLE SUR LEWEB INVISIBLE......................................................26 Les spécificités d’une veille automatisée sur leWeb Invisible...................................26 Comparatif des principaux outils de recherche / surveillance du web invisible...................................................................................................................................................................30 Les avantages de l’approche de Digimind pour la surveillance du Web Invisible...................................................................................................................................................................30 A PROPOS DES AUTEURS.................................................................................................................32 Digimind Consulting...................................................................................................................................32 Christophe ASSELIN......................................................................................................................................32 NOTES…..............................................................................................................................................................33
  • 4. b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r [extraits] Téléchargez l’intégralité de ce document et l’ensemble des publications de Digimind : http://www.digimind.fr/actus/actu/publications
  • 5. b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r Pour rechercher des informations et effectuer votre veille sur le web, l’utilisation des seuls moteurs et annuaires généralistes vous privera de l’identifica- tion de centaines de milliers de sources…. Pourquoi ? Parce que des moteurs comme Google, MSN ou Yahoo! Search1 ou des répertoires tels que Yahoo! Directory2 ne vous donnent accès qu’à une petite partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d’accéder à une zone immense du web, le Web Invisible, espace beaucoup plus important que le web visible. Lors d’une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous privez de la surface immergée, en moyenne 50 fois plus importante. Sur le web, c’est la même chose ! Se contenter du web visible pour votre veille revient à ne pas explorer une zone invisible environ 500 fois plus volumineuse, comportant des centaines de milliers de ressources de grande valeur. Les ressources duWeb Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu’elles sont élaborées ou validées par des experts, faisant autorité dans leurs domaines. Ce document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites apparte- nant à ce web“profond”. Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en œuvre un véritable processus de veille industrielle sur les ressources du Web Invisible.
  • 6. Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés Le Web Invisible : concepts et définition Pourquoi un web invisible ? Pour comprendre le web invisible, Il convient d’abord de rappeler ce que sont le web et sa zone visible. L’INTERNET N’EST PAS LEWEB Il existe souvent une confusion et un amalgame sémantique entre le web et l’internet. Ce sont pourtant 2 concepts différents. L’internet, ou Net, est un réseau informatique mondial constitué d’un ensemble de réseaux nationaux, régionaux et privés, interconnectés entre eux (INTER- connected NETworks). Il relie des ressources de télécommunication et des ordinateurs serveurs et clients. Sur ce réseau, vous pouvez accéder à un certain nombre de services via des protocoles de communication spécifiques : - le World Wide Web (protocole http://www) - le Mail (smtp) - Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med. oncology - le P2P (via des logiciels clients). et également le FTP, Gopher, … LEWEBVISIBLE Pour appréhender la notion de Web Visible, il est nécessaire de com- prendre le fonctionnement d’un moteur de recherche. Un moteur de recherche “aspire” puis indexe des pages web. Pour ce faire, ses robots (ou spider) vont parcourir les pages web en naviguant de liens en liens, et passer ainsi d’une page à une autre. Ce robot va archiver sur les serveurs du moteur une version de chaque page web rencontrée. Ainsi, Google dispose de plus de 10 000 serveurs répartis sur plusieurs états (Californie, Irlande, Suisse…) et installés dans des salles dédiées. Ces serveurs connectés entre eux hébergent notamment les milliards de pages web aspirées. Cette version archivée des pages au moment du passage du robot est d’ailleurs disponible via la fonction “Cache”disponible sur certains mo- teurs comme Google,Yahoo!, Clusty ou Gigablast (copies d’écran ci-des- sous). Lors d’une recherche sur un moteur, l’internaute lance une requête sur les bases de données de ces serveurs. LEWEB INVISIBLE : DEFINITION ET STRUCTURE Le Web Invisible est constitué des documents web mal ou non indexés par les moteurs de recherche généralistes conventionnels. Les fonctions“Cache”du moteurYahoo!
  • 7. b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r En effet, le fonctionnement des moteurs pour “aspirer”le web implique que, d’une part, les pages soient bien liées entre elles via les liens hypertexte (http://) qu’elles contiennent et que, d’autre part, elles soient identifiables par les robots du moteur. Or dans certains cas, ce parcours de liens en liens et cette identification de pages est difficile, voire impossible. Une partie du web est en effet peu ou non accessible aux moteurs de recherche pour plusieurs raisons : 1- Les documents ou bases de données sont trop volumineux pour être entièrement indexés. Prenons l’exemple de l’IMDB3 . L’Internet Movie Database, une base de donnée en libre accès consacrée au cinéma répertorie plus de 7 millions de pages descriptives consacrées aux films et acteurs, représentant chacune une page web. Soit plus de 7 millions de pages. Les moteurs conventionnels n’indexent pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon les moteurs). C’est aussi le cas de plusieurs milliers de bases de données professionnelles en ligne comme PubMed, certaines n’étant pas indexées du tout. D’autre part, les moteurs n’indexent pas la totalité du contenu d’une page lorsque celle-ci est très volumineuse : Google et Yahoo! archivent les pages dans une limite de 500k et 505k. 2- les pages sont protégées par l’auteur (balise meta qui stoppe le robot des moteurs) Certains sites sont protégés par leur créateur ou gestionnaire (webmaster), qui, grâce à un fichier robot.txt inséré dans le code des pages, interdit leur accès aux robots des moteurs. L’utilisation de ce fichier robot.txt est effectuée pour protéger le copyright des pages, limiter leur visite à un groupe restreint d’internautes (auquel on fournira l’adresse, inconnue des moteurs) ou préserver certains sites d’un accès trop fréquent ralentissant les serveurs. Ainsi, le site du journal Le Monde interdit aux robots des moteurs de recherche l’accès à ses pages payantes. De cette manière, il évite que les moteurs archivent des pages payantes et les mettent à disposition gratuitement via leur fonction“Cache”. 3- les pages sont générées seulement dynamiquement, lors d’une requête par exemple De nombreux sites web génèrent des pages dynamiquement, c’est-à- dire uniquement en réponse à une requête sur leur moteur interne. Il n’existe pas alors d’URL4 (adresse) statique des pages que les moteurs pourraient parcourir puisque les robots des moteurs n’ont pas la faculté de taper des requêtes. Ainsi, lorsque vous faites une recherche sur des bases de données ou moteurs, certaines pages générées en réponse à votre question sont structurées avec des ? et , de cette manière par exemple : query.fcgi?CMD=search. Ce type de page n’est généralement pas ou mal indexée par les moteurs. Exemple : http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=searchDB=Genome “Leweb invisible est constitué des documentsweb mal ou non indexés par les moteurs de recherche conventionnels” La célèbre base PubMed de la National Library of Medecine donnant notamment accès à plus de 15 millions d’articles.
  • 8. Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés 4-lespagessontprotégéesavecuneauthentificationparidentifiant (login) et mot de passe. De nombreux sites, qu’ils soient payants ou gratuits, protègent tout ou partie de leur contenu par mot de passe. Les robots de moteurs n’ayant pas la faculté de taper des mots dans des formulaires complexes, ces pages ne leur sont pas accessibles. 5 - Les formats des documents Il y a encore quelques années, on incluait dans le Web Invisible toutes les pages aux formats autres que le html, seul format reconnu et indexé par les moteurs. En effet, jusqu’en 2001, les moteurs n’indexaient pas les formats PDF (Adobe) et Microsoft Office (Excel, Word, Power Point…). Depuis l’été 2001, Google indexe le PDF et, depuis octobre 2001, il indexe les fichiers Word (.doc), Excel (.xls), Powerpoint (.ppt), Rich Text Format (.RTF), PostScript (.ps) et d’autres encore. Le format Flash, lui, a commencé à être indexé en 2002 par le moteur AlltheWeb5 Aujourd’hui, la plupart des grands moteurs à large index (Google, Yahoo!, MSN, Exalead, Gigablast6 ) mémorisent et indexent ces formats de documents. Toutefois, comme nous l’avons vu, l’archivage d’une page web est limité à 500 ou 505 k sur Google et Yahoo! Search. Les documents dépassant ce seuil seront donc partiellement indexés. On le voit, la structure du web dit “invisible” peut donc évoluer dans le temps en fonction des avancées technologiques des moteurs de recherche. D’”invisibles” avant 2001, certains formats sont devenus “visibles”ensuite. 6-Lespagessontmalliéesentreellesousontorphelines(aucunlien présent sur d’autres pages ne pointent vers elles). Plutôt qu’une toile, le web est en fait un immense papillon. Pourquoi ? Nous avons vu que le fonctionnement des robots des moteurs de recherche impliquait que toutes les pages soient liées entre elles pour qu’elles soient visibles. Or, ce n’est pas le cas. Jusqu’en 2000, on avait coutume de représenter le web à la manière d’une toile d’araignée, supposant ainsi que les pages web sont toutes bien liées entre elles, selon la même densité de liens entrant et sortant, constituant ainsi un ensemble homogène de ramifications. Ainsi, en partant de certaines URLs bien définies, les robots devaient forcément L’authentification pour l’accès au site d’une fédération professionnelle. Les pages web peu accessibles ou inaccessibles aux moteurs de recherche conventionnels
  • 9. b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r parvenir à parcourir le web en quasi-totalité. Or, en juin 2000, des chercheurs de IBM (Almaden Research Center, Californie), Compaq et Altavista ont proposé une toute autre représentation du web, plus proche de la réalité… Dans leur étude“Graph structure in the web”7 , les 8 chercheurs analysent 200 millions de pages et 1,5 millions de liens collectés par le robot d’Altavista en 3 étapes, de mai à octobre 1999. L’analyse de ces pages révèle que le web se structurerait en 4 parties : 1.Lapartiecentrale,leCœur: SCC(GiantStronglyConnectedComponent), soit 27,5 % des pages web analysées. Toutes les pages web sont bien connectées entre elles via des liens directs. 2 et 3. Les zones IN et OUT : La partie IN (21,4%) comprend les pages “source” : ces pages comportent des liens qui pointent vers le cœur (SCC) mais l’inverse n’est pas vrai : aucun lien présent dans le cœur ne pointent sur ces pages. Cela peut concerner de nouvelles pages pas encore découvertes et donc non“liées”par des liens pointant vers elles. La partie OUT (21,4%) comprend au contraire des pages de“destination”: ces pages sont accessibles et liées à partir du noyau mais en retour, elles n’ont pas de liens qui pointent vers le cœur. C’est le cas, par exemple, de sites“Corporate”de sociétés qui ne comportent que des liens internes et ne proposent pas de liens sortant vers d’autres sites. 4. Les “Tendrils” : (21,4%) : Ce terme métaphorique, emprunté à la botanique, désigne des filaments. Ceux- ci représentent des pages qui ne sont pas liées au cœur SCC, et sans liens qui pointent vers elles à partir du cœur. Ces filaments ne sont connectés qu’aux zones IN et OUT via des liens sortants de la zone IN et des liens entrants dans la zone OUT. L’étude révèle par ailleurs que si l’on choisit une page au hasard au sein des zones IN et OUT, la probabilité qu’un chemin direct existe de la source (IN) à la destination (OUT) est de seulement 24% (représenté ici par le“tube”). - Enfin, 8,3% des pages constituent des îlots, totalement déconnectés du reste du web. Ces pages sont donc orphelines, sans liens pointant vers elles et sans liens sortant, qui auraient permis aux sites destinataires de les trouver. Pour identifier ces pages, il n’existe donc pas d’autres solutions que de connaître leurs adresses fournies par leurs créateurs. Comment est-il possible que des pages soient mal liées ou non liées ? Ces pages de sites web peuvent être mal référencées ou non référencées involontairement dans les index de moteurs : - Par exemple si ses auteurs ne se sont pas préoccupés d’optimiser ces pages (choix adéquat des mots clés, des titres) afin qu’elles soient visibles parmi les premiers résultats des moteurs. C’est ensuite un cercle vicieux : les algorithmes de moteurs comme Google privilégient la popularité des sites pour un bon classement dans les pages de résultats (plus le “Leweb, plutôt qu’unetoile d’araignée, est structurée comme un immense papillon” Connectivity of the web. © Etude“Graph structure in the web”
  • 10. Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page © Digimind - Tous droits réservés nombre de liens pointant vers une page est important, plus cette page aura une chance d’être bien classée au sein des résultats). Une page web mal classée dès le départ sera moins visible, donc moins découverte par les internautes et bénéficiera de moins de liens. Ces pages, au mieux, stagneront ou descendront dans les profondeurs des pages de résultats des moteurs. - Une page placée sur le web sans liens pointant vers elle demeurera invisible des moteurs de recherche. Cela est le cas pour des milliers de documents dont les auteurs ne connaissent pas ou se soucient peu des principes de visibilité de leurs pages (documents de recherche, documents techniques..). Par ailleurs, on voit sur cette représentation du web en papillon que certaines pages demeurent tout à fait invisibles et d’autres seulement moins visibles …Il existe donc des niveaux de visibilité. Aussi le terme “invisible”au sens strict n’est pas forcément le plus approprié… UNWEB INVISIBLE, CACHE OU PROFOND ? Plutôt que de parler d’unWeb Invisible, certains spécialistes ont tenté de préciser le concept et de l’illustrer différemment. Ainsi, Chris Sherman et Gary Price proposent dans leur ouvrage “The Invisible Web”8 de distinguer 4 types de web invisible : - The Opaque Web : les pages qui pourraient être indexées par les mo- teurs mais qui ne le sont pas (à cause de la limitation d’indexation du nombre de pages d’un site, de leur fréquence d’indexation trop rare, de liens absents vers des pages ne permettant donc pas un crawling de liens en liens) - The Private Web : concerne les pages web disponibles mais volontaire- ment exclues par les webmasters (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l’indexe pas). - The Proprietary web : les pages seulement accessibles pour les person- nes qui s’identifient. Le robot ne peut donc pas y accéder. - The Truly Invisible Web : contenu qui ne peut être indexé pour des rai- sons techniques. Ex: format inconnu par le moteur, pages générées dy- namiquement. Le terme de Web Invisible a été employé pour la première fois en 1994 par le DR Jill Ellsworth pour évoquer une information dont le contenu était invisible des moteurs de recherche conventionnels. Mais dans son étude“The Deep Web: Surfacing Hidden Value“ , Michael K. Bergman estime, avec raison, que le terme deWeb Invisible est inapproprié. En effet, la seule chose d’invisible l’est aux“yeux”des robots des moteurs. Des technologies comme Digimind Evolution permet- tent d’accéder et de surveiller ce web invisible. Aussi, plutôt que le web visible et invisible, l’étude de BrightPlanet préfère évoquer un “Surface Web” et un “Deep web”(web profond). En effet, le problème n’est pas tant la visibilité que l’accessibilité par les moteurs. Il existe donc un web de surface que les moteurs parviennent à indexer et un web pro- fond, que leurs technologies ne parviennent pas encore à explorer, mais qui est visible à partir d’autres technologies perfectionnées. On pourrait donc comparer le web à un gigantesque iceberg (en per- pétuelle expansion) présentant un volume de ressources immergées beaucoup plus important que les ressources de surface. Comme le web, cet iceberg verrait son volume total augmenter constamment, et la structure de ses parties immergées et émergées se modifier avec le temps (en fonction de l’évolution des technologies des moteurs). Mais quelle peut être la taille et la composition de ces 2 parties de l’ice- berg ? Si en moyenne, le volume de la partie immergée d’un iceberg est 50 fois plus important que celui de sa partie émergée, les proportions du web visible et invisible sont très différentes… “leWeb n’est pas réellement invisible mais difficilement accessible. Il faut plutôt parler de web profond ”
  • 11. Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 25© Digimind - Tous droits réservés
  • 12. Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 33© Digimind - Tous droits réservés Dans la même collection White Papers • «LeWeb 2.0 pour la veille et la recherche d’information : Exploitez les ressources duWeb Social» Christophe Asselin, ExpertVeille Internet, Digimind • «Blogs et RSS, des outils pour la veille stratégique» Christophe Asselin, ExpertVeille Internet, Digimind • «Réputation Internet : Ecoutez at analysez le buzz digital» Christophe Asselin, ExpertVeille Internet, Digimind • «Evaluer le Retour sur Investissement d’un logiciel de veille» Edouard Fillias, ConsultantVeille Stratégique, Digimind • «Catégorisation automatique de textes» • «Benchmark des solutions de veille stratégique» Red Books • Biotechnologie • Nanotechnologie • Nutrition • RFID • Risk management • Contrefaçon • Moyens de paiement A télécharger sur http://www.digimind.fr/actus/publications
  • 13. w w w . d i g i m i n d . c o m
  • 14. b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a tw w w . d i g i m i n d . f r Téléchargez l’intégralité de ce document et l’ensemble des publications de Digimind : http://www.digimind.fr/actus/actu/publications