De presentatie 'Hoe zoeken mensen door historische kranten?' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Door Martijn Kleppe (hoofd afdeling Onderzoek Koninklijke Bibliotheek) en Jacco van Ossenbruggen (hoofd Information Access Onderzoeksgroep Centrum voor Wiskunde en Informatica).
Digitale collecties zoals Delpher.nl worden steeds meer gebruikt. Hoe kunnen we het gebruik van dit soort digitale collecties analyseren? Wat voor soort zoekers kun je identificeren als je alle gebruikers analyseert? En wellicht net zo belangrijk: hoe kunnen we het gedrag van klanten op een verantwoorde en transparante manier analyseren?
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
1. Hoe zoeken mensen door
historische kranten?
Martijn Kleppe
hoofd afd. Onderzoek Koninklijke Bibliotheek
martijn.kleppe@kb.nl
Jacco van Ossenbruggen
hoofd Information Access onderzoeksgroep
Centrum voor Wiskunde en Informatica
hoofd User-Centric Data Science onderzoeksgroep
VU Amsterdam
Jacco.van.Ossenbruggen@cwi.nl
Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink
https://goo.gl/Yfc92V
2. In 2017:
● 843.463 bezoekers
● 2.188.237 sessies
● 33.460.531 pagina weergeven
● 15.29 pagina’s per sessie
● 14:44 minuten per sessie
12. CWI Information Access onderzoeksgroep
● Wij onderzoeken ondersteuning van taken met:
○ Te veel data om het alleen door mensen te laten doen
○ Te subjectieve data om het alleen door computers te laten doen
● Vereist dat mensen de mogelijkheden maar ook de beperkingen van
de techniek kunnen inschatten
○ Maar: veel gebruikers kunnen dat niet (van naïef enthousiast tot totale digifoob)
○ Erger: informatici zoals ik kunnen dat soms ook niet
● Ons doel is:
○ Ook beperkingen objectief meetbaar en inzichtelijk te maken
○ Methodes ontwikkelen om impact van generieke oplossingen op specifieke
gevallen in te schatten
14. Google afbeeldingen, gezocht op
‘‘unprofessional hair for work’’
The Guardian, 8 april 2016
Is Google’s zoekmachine seksistisch en racistisch?
● Generiek algoritme dat vaak prima werkt
(maar dus niet altijd)
● Combinatie algoritme + veel verschillende data =
onvoorspelbaar
● Hoe kun je dit soort “bias” meten en/of afschatten?
● Voorbeeld: voorspel effect van trainen van deep
learning algoritmen op Delpher corpus
● Trainen we met of zonder nazi oorlogskranten?
● ...
15. Studie naar Delpher “gebruikers logs”
Problemen bij de analyse van zoekopdrachten (“queries”)
Data is lastig:
● Query kan privacygevoelig materiaal bevatten (“ego surfing”)
○ “ossenbruggen zedenzaak”
● Query is slechts een indicatie van wat de gebruiker echt zoekt (“intent”)
● Bijna elke query is uniek (“long tail”)
Software is ook lastig:
● Te veel log data om met de hand te onderzoeken
● Te specifieke data om alleen generieke software te gebruiken
● We willen geen “PhD-ware”
○ software die alleen bestaat op de laptop van een reeds vertrokken student
17. Example server log (± 1000M regels zoals deze)
…
2017-07-01 00:00:05 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A010640461%3Ampeg21%3Aa0051&query=Comedy+Parade" 80 -
- 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
"http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980-
1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 184205
2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A011205563%3Ampeg21%3Aa0129&query=Comedy+Parade" 80 -
- 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
"http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980-
1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 60935
2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet
"?coll=ddd&object=KBNRC01%3A000030366%3Ampeg21%3Aa0151&query=Volkskrant+van+10+sept+1958" 80 - - 192.16.196.210 "Mozilla/5.0 (iPhone; CPU
iPhone OS 10_3_2 like Mac OS X) AppleWebKit/603.2.4 (KHTML, like Gecko) Mobile/14F89
[FBAN/FBIOS;FBAV/99.0.0.57.70;FBBV/63577032;FBDV/iPhone7,1;FBMD/iPhone;FBSN/iOS;FBSV/10.3.2;FBSS/3;FBCR/vfnl;FBID/phone;FBLC/nl_NL;FBOP/5;
FBRV/0]" "http://www.delpher.nl/nl/kranten/results?query=Volkskrant+van+10+sept+1958&page=1&coll=ddd" 200 259168
2017-07-01 00:00:09 192.87.31.13 GET /css/icons.css "?version=3.0.131" 80 - - 192.16.196.210 "Mozilla/5.0 (Macintosh; Intel Mac OS X
10_9_5) AppleWebKit/601.7.7 (KHTML, like Gecko) Version/9.1.2 Safari/537.86.7"
"http://www.delpher.nl/nl/boeken1/results?query=commandeur+duyn&page=1&coll=boeken1" 200 300
18. Gebruikte software: SWISH datalab
● Web “notebook” platform
○ Alle data/software online beschikbaar (ipv op laptop PhD)
○ Stimuleert samenwerking
○ Beschikbaar voor collega wetenschappers en algemeen publiek ...
● “Publiek tenzij”
○ Delpher logs te privacygevoelig, SWISH draait achter dubbele firewall
○ Voorbeeld studie op publieke data: https://vre4eic.project.cwi.nl/gender/
○ Elke resultaat (grafiek, tabel, statistische analysis) reproduceerbaar & transparent
○ Dit geldt ook voor alle voorbeeld resultaten die ik hierna laat zien!
19. Wat zit er in de collectie vs. wat klikken mensen aan
Familieberichten:
• Vaak aangeklikt
• 34% van alle
familieberichten gezien
in 6 maanden,
(rest maar 3-5%)
Sessies:
• ‘Familiebericht” facet
gebruikt in 19% sessies
• Sessies kort, minder
kliks & downloads
• Weinig sessies zonder
kliks
20. Zoeken m.b.v. periode facet:
• Veel 20ste eeuw
• Piek rond WOII
• Distributie in collectie minder
gespreid dan in de kliks
• Pieken klein beetje
verschoven
Sessies periode WOII:
• Sessies in deze periode zijn
langer dan gemiddeld
• Meer zoek acties
meer kliks
21. Inzoomen op individu:
• Twee voorbeelden van
“sequentiele”
gebruikers
• typische “klikker” (links)
• Typische “zoeker”
(rechts)
22. Inzoomen op individu:
• Twee voorbeelden van
“hiërarchische” gebruikers
met complex zoekgedrag
• typisch “exploratief” zoeken
in illustraties & artikelen
(boven)
• Typisch “gefocust” zoeken in
familieberichten (onder)
• Maar: we hebben te veel van
dit soort voorbeelden om
allemaal te bestuderen
25. Metadata in de facets (rechts) en in de clicks (links)
● Wat zoeken mensen in de afzonderlijke clusters en wat vinden ze uiteindelijk?
● Hoe verhouden deze groepen zich met de “persona’s” uit het KB gebruikersonderzoek?
● Hoe communiceren we dit soort resultaten helder en transparant naar de KB & zijn gebruikers?
26. www.kb.nl/onderzoeksagenda
Volgende stappen:
➢ We moeten hier nog veel meer over leren
& intern organiseren
➢ Apart thema in onze onderzoeksagenda:
Hoe kunnen we het gedrag van onze
klanten op verantwoorde wijze diepgaander
analyseren?
➢ Investeren in kennis en mankracht
➢ Willen (& kunnen) dit niet alleen.
➢ Samenwerken? Fijn!
27. Colofon
▪ Deze slides zijn deels de resultaten van onderzoek door Tessel Bogaard, Jan Wielemaker & Laura
Hollink, op basis van 200M log records uit oktober 2015 - maart 2016 beschikbaar gesteld voor
wetenschappelijk onderzoek door de KB aan het CWI onder strikte voorwaarden om de privacy van
gebruikers te waarborgen.
▪ Dank aan KB collega’s Maaike Napolitano & Mirte Groskamp
▪ This research was partially supported by the VRE4EIC project, a project that has received funding from
the European Union's Horizon 2020 research and innovation program under grant agreement No
676247.
28. Hoe zoeken mensen door
historische kranten?
Martijn Kleppe
hoofd afd. Onderzoek Koninklijke Bibliotheek
martijn.kleppe@kb.nl
Jacco van Ossenbruggen
hoofd Information Access onderzoeksgroep
Centrum voor Wiskunde en Informatica
hoofd User-Centric Data Science onderzoeksgroep
VU Amsterdam
Jacco.van.Ossenbruggen@cwi.nl
Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink