SlideShare a Scribd company logo
1 of 28
Hoe zoeken mensen door
historische kranten?
Martijn Kleppe
hoofd afd. Onderzoek Koninklijke Bibliotheek
martijn.kleppe@kb.nl
Jacco van Ossenbruggen
hoofd Information Access onderzoeksgroep
Centrum voor Wiskunde en Informatica
hoofd User-Centric Data Science onderzoeksgroep
VU Amsterdam
Jacco.van.Ossenbruggen@cwi.nl
Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink
https://goo.gl/Yfc92V
In 2017:
● 843.463 bezoekers
● 2.188.237 sessies
● 33.460.531 pagina weergeven
● 15.29 pagina’s per sessie
● 14:44 minuten per sessie
https://www.nrc.nl/bigboard/
Persgroep titels
toegevoegd
Sitemap voor
boeken
toegevoegd
Sitemap voor
kranten en
tijdschriften
toegevoegd
Geesteswetenschappelijk
Onderzoekers
Bronnenonderzoek
Studenten
Paper schrijven
Docenten
Lessen voorbereiden &
profielwerkstukken begeleiden
Algemeen geïnteresseerden
Informatie zoeken & delen
Beginnende data onderzoeker
Corpus samenstellen & analyseren
https://www.theguardian.com/technology/2017/o
ct/26/cambridge-analytica-used-data-from-
facebook-and-politico-to-help-trump
https://media.giphy.com/media/TgHosMP8OADYO6onsC/giphy.gif
https://www.theguardian.com/world/2015/may/02/france-libraries-social-workshops-meeting-hub
CWI Information Access onderzoeksgroep
● Wij onderzoeken ondersteuning van taken met:
○ Te veel data om het alleen door mensen te laten doen
○ Te subjectieve data om het alleen door computers te laten doen
● Vereist dat mensen de mogelijkheden maar ook de beperkingen van
de techniek kunnen inschatten
○ Maar: veel gebruikers kunnen dat niet (van naïef enthousiast tot totale digifoob)
○ Erger: informatici zoals ik kunnen dat soms ook niet
● Ons doel is:
○ Ook beperkingen objectief meetbaar en inzichtelijk te maken
○ Methodes ontwikkelen om impact van generieke oplossingen op specifieke
gevallen in te schatten
Google afbeeldingen, gezocht op
‘‘professional hair for work’’
The Guardian, 8 april 2016
Google afbeeldingen, gezocht op
‘‘unprofessional hair for work’’
The Guardian, 8 april 2016
Is Google’s zoekmachine seksistisch en racistisch?
● Generiek algoritme dat vaak prima werkt
(maar dus niet altijd)
● Combinatie algoritme + veel verschillende data =
onvoorspelbaar
● Hoe kun je dit soort “bias” meten en/of afschatten?
● Voorbeeld: voorspel effect van trainen van deep
learning algoritmen op Delpher corpus
● Trainen we met of zonder nazi oorlogskranten?
● ...
Studie naar Delpher “gebruikers logs”
Problemen bij de analyse van zoekopdrachten (“queries”)
Data is lastig:
● Query kan privacygevoelig materiaal bevatten (“ego surfing”)
○ “ossenbruggen zedenzaak”
● Query is slechts een indicatie van wat de gebruiker echt zoekt (“intent”)
● Bijna elke query is uniek (“long tail”)
Software is ook lastig:
● Te veel log data om met de hand te onderzoeken
● Te specifieke data om alleen generieke software te gebruiken
● We willen geen “PhD-ware”
○ software die alleen bestaat op de laptop van een reeds vertrokken student
home page
CSS
JavaScript
logo’s
font
s
Google analytics
AJAX
Example server log (± 1000M regels zoals deze)
…
2017-07-01 00:00:05 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A010640461%3Ampeg21%3Aa0051&query=Comedy+Parade" 80 -
- 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
"http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980-
1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 184205
2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A011205563%3Ampeg21%3Aa0129&query=Comedy+Parade" 80 -
- 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
"http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980-
1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 60935
2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet
"?coll=ddd&object=KBNRC01%3A000030366%3Ampeg21%3Aa0151&query=Volkskrant+van+10+sept+1958" 80 - - 192.16.196.210 "Mozilla/5.0 (iPhone; CPU
iPhone OS 10_3_2 like Mac OS X) AppleWebKit/603.2.4 (KHTML, like Gecko) Mobile/14F89
[FBAN/FBIOS;FBAV/99.0.0.57.70;FBBV/63577032;FBDV/iPhone7,1;FBMD/iPhone;FBSN/iOS;FBSV/10.3.2;FBSS/3;FBCR/vfnl;FBID/phone;FBLC/nl_NL;FBOP/5;
FBRV/0]" "http://www.delpher.nl/nl/kranten/results?query=Volkskrant+van+10+sept+1958&page=1&coll=ddd" 200 259168
2017-07-01 00:00:09 192.87.31.13 GET /css/icons.css "?version=3.0.131" 80 - - 192.16.196.210 "Mozilla/5.0 (Macintosh; Intel Mac OS X
10_9_5) AppleWebKit/601.7.7 (KHTML, like Gecko) Version/9.1.2 Safari/537.86.7"
"http://www.delpher.nl/nl/boeken1/results?query=commandeur+duyn&page=1&coll=boeken1" 200 300
Gebruikte software: SWISH datalab
● Web “notebook” platform
○ Alle data/software online beschikbaar (ipv op laptop PhD)
○ Stimuleert samenwerking
○ Beschikbaar voor collega wetenschappers en algemeen publiek ...
● “Publiek tenzij”
○ Delpher logs te privacygevoelig, SWISH draait achter dubbele firewall
○ Voorbeeld studie op publieke data: https://vre4eic.project.cwi.nl/gender/
○ Elke resultaat (grafiek, tabel, statistische analysis) reproduceerbaar & transparent
○ Dit geldt ook voor alle voorbeeld resultaten die ik hierna laat zien!
Wat zit er in de collectie vs. wat klikken mensen aan
Familieberichten:
• Vaak aangeklikt
• 34% van alle
familieberichten gezien
in 6 maanden,
(rest maar 3-5%)
Sessies:
• ‘Familiebericht” facet
gebruikt in 19% sessies
• Sessies kort, minder
kliks & downloads
• Weinig sessies zonder
kliks
Zoeken m.b.v. periode facet:
• Veel 20ste eeuw
• Piek rond WOII
• Distributie in collectie minder
gespreid dan in de kliks
• Pieken klein beetje
verschoven
Sessies periode WOII:
• Sessies in deze periode zijn
langer dan gemiddeld
• Meer zoek acties
meer kliks
Inzoomen op individu:
• Twee voorbeelden van
“sequentiele”
gebruikers
• typische “klikker” (links)
• Typische “zoeker”
(rechts)
Inzoomen op individu:
• Twee voorbeelden van
“hiërarchische” gebruikers
met complex zoekgedrag
• typisch “exploratief” zoeken
in illustraties & artikelen
(boven)
• Typisch “gefocust” zoeken in
familieberichten (onder)
• Maar: we hebben te veel van
dit soort voorbeelden om
allemaal te bestuderen
Data-driven, bottom-
up clusteren van
gebruikerssessies
Automatisch
gegroepeerd
Handmatig
gelabeld
Clusters goed stabiel over de maanden
Metadata in de facets (rechts) en in de clicks (links)
● Wat zoeken mensen in de afzonderlijke clusters en wat vinden ze uiteindelijk?
● Hoe verhouden deze groepen zich met de “persona’s” uit het KB gebruikersonderzoek?
● Hoe communiceren we dit soort resultaten helder en transparant naar de KB & zijn gebruikers?
www.kb.nl/onderzoeksagenda
Volgende stappen:
➢ We moeten hier nog veel meer over leren
& intern organiseren
➢ Apart thema in onze onderzoeksagenda:
Hoe kunnen we het gedrag van onze
klanten op verantwoorde wijze diepgaander
analyseren?
➢ Investeren in kennis en mankracht
➢ Willen (& kunnen) dit niet alleen.
➢ Samenwerken? Fijn!
Colofon
▪ Deze slides zijn deels de resultaten van onderzoek door Tessel Bogaard, Jan Wielemaker & Laura
Hollink, op basis van 200M log records uit oktober 2015 - maart 2016 beschikbaar gesteld voor
wetenschappelijk onderzoek door de KB aan het CWI onder strikte voorwaarden om de privacy van
gebruikers te waarborgen.
▪ Dank aan KB collega’s Maaike Napolitano & Mirte Groskamp
▪ This research was partially supported by the VRE4EIC project, a project that has received funding from
the European Union's Horizon 2020 research and innovation program under grant agreement No
676247.
Hoe zoeken mensen door
historische kranten?
Martijn Kleppe
hoofd afd. Onderzoek Koninklijke Bibliotheek
martijn.kleppe@kb.nl
Jacco van Ossenbruggen
hoofd Information Access onderzoeksgroep
Centrum voor Wiskunde en Informatica
hoofd User-Centric Data Science onderzoeksgroep
VU Amsterdam
Jacco.van.Ossenbruggen@cwi.nl
Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink

More Related Content

Similar to Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018

Hoe ontwerp je een effectief leernetwerk?
Hoe ontwerp je een effectief leernetwerk?Hoe ontwerp je een effectief leernetwerk?
Hoe ontwerp je een effectief leernetwerk?Hendrik Drachsler
 
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyZoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyDavid Graus
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekElco van Staveren
 
Research data management: "Is dit nog wel des bibliotheeks"?
Research data management: "Is dit nog wel des bibliotheeks"?Research data management: "Is dit nog wel des bibliotheeks"?
Research data management: "Is dit nog wel des bibliotheeks"?Hugo Besemer
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers
 
Zoeken naar onderzoeksdata
Zoeken naar onderzoeksdataZoeken naar onderzoeksdata
Zoeken naar onderzoeksdatavoginip
 
Inlichtingenwerk Basis
Inlichtingenwerk BasisInlichtingenwerk Basis
Inlichtingenwerk BasisJan Van Hee
 
Beeldbank UT en Social Media
Beeldbank UT en Social MediaBeeldbank UT en Social Media
Beeldbank UT en Social MediaJulia Meijvogel
 
AwesomRUs: CHI report 1
AwesomRUs: CHI report 1AwesomRUs: CHI report 1
AwesomRUs: CHI report 1guest3ff464b
 
SHB Lustrum presentatie 20080619
SHB Lustrum presentatie 20080619SHB Lustrum presentatie 20080619
SHB Lustrum presentatie 20080619guest69d668
 
Sociale Netwerken (Social Networks & Libraries)
Sociale Netwerken (Social Networks & Libraries)Sociale Netwerken (Social Networks & Libraries)
Sociale Netwerken (Social Networks & Libraries)Guus van den Brekel
 
Anne Frank House - user studies - Brabants Erfgoed, Helmond 22 november
Anne Frank House - user studies - Brabants Erfgoed, Helmond 22 novemberAnne Frank House - user studies - Brabants Erfgoed, Helmond 22 november
Anne Frank House - user studies - Brabants Erfgoed, Helmond 22 novemberLotte Belice Baltussen
 
Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008Guus van den Brekel
 

Similar to Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018 (20)

Data verzamelen Nina Van Den Driessche
Data verzamelen Nina Van Den DriesscheData verzamelen Nina Van Den Driessche
Data verzamelen Nina Van Den Driessche
 
Hoe ontwerp je een effectief leernetwerk?
Hoe ontwerp je een effectief leernetwerk?Hoe ontwerp je een effectief leernetwerk?
Hoe ontwerp je een effectief leernetwerk?
 
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyZoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
 
Research data management: "Is dit nog wel des bibliotheeks"?
Research data management: "Is dit nog wel des bibliotheeks"?Research data management: "Is dit nog wel des bibliotheeks"?
Research data management: "Is dit nog wel des bibliotheeks"?
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016
 
Full presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH KadasterFull presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH Kadaster
 
KCGG UGent - Nele Pauwels
KCGG UGent - Nele PauwelsKCGG UGent - Nele Pauwels
KCGG UGent - Nele Pauwels
 
Zoeken naar onderzoeksdata
Zoeken naar onderzoeksdataZoeken naar onderzoeksdata
Zoeken naar onderzoeksdata
 
Demo Services and Tools CMB, UMCG
Demo Services and Tools CMB, UMCGDemo Services and Tools CMB, UMCG
Demo Services and Tools CMB, UMCG
 
Demo CMB : services and tools
Demo CMB : services and toolsDemo CMB : services and tools
Demo CMB : services and tools
 
Inlichtingenwerk Basis
Inlichtingenwerk BasisInlichtingenwerk Basis
Inlichtingenwerk Basis
 
Beeldbank UT en Social Media
Beeldbank UT en Social MediaBeeldbank UT en Social Media
Beeldbank UT en Social Media
 
AwesomRUs: CHI report 1
AwesomRUs: CHI report 1AwesomRUs: CHI report 1
AwesomRUs: CHI report 1
 
SHB Lustrum presentatie 20080619
SHB Lustrum presentatie 20080619SHB Lustrum presentatie 20080619
SHB Lustrum presentatie 20080619
 
Sociale Netwerken (Social Networks & Libraries)
Sociale Netwerken (Social Networks & Libraries)Sociale Netwerken (Social Networks & Libraries)
Sociale Netwerken (Social Networks & Libraries)
 
20191114 ECP Jaarcongres 2019 - PLDN en Linked Data Intro
20191114 ECP Jaarcongres 2019 -  PLDN en Linked Data Intro20191114 ECP Jaarcongres 2019 -  PLDN en Linked Data Intro
20191114 ECP Jaarcongres 2019 - PLDN en Linked Data Intro
 
Anne Frank House - user studies - Brabants Erfgoed, Helmond 22 november
Anne Frank House - user studies - Brabants Erfgoed, Helmond 22 novemberAnne Frank House - user studies - Brabants Erfgoed, Helmond 22 november
Anne Frank House - user studies - Brabants Erfgoed, Helmond 22 november
 
BeBright MROC
BeBright MROCBeBright MROC
BeBright MROC
 
Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008Kennissessie RUG-bibliotheken, mei 2008
Kennissessie RUG-bibliotheken, mei 2008
 

More from Netwerk Oorlogsbronnen

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Netwerk Oorlogsbronnen
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Netwerk Oorlogsbronnen
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannNetwerk Oorlogsbronnen
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaNetwerk Oorlogsbronnen
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Netwerk Oorlogsbronnen
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalNetwerk Oorlogsbronnen
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenNetwerk Oorlogsbronnen
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Netwerk Oorlogsbronnen
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Netwerk Oorlogsbronnen
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Netwerk Oorlogsbronnen
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Netwerk Oorlogsbronnen
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...Netwerk Oorlogsbronnen
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019Netwerk Oorlogsbronnen
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Netwerk Oorlogsbronnen
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Netwerk Oorlogsbronnen
 

More from Netwerk Oorlogsbronnen (20)

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de Vooren
 
Van archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin KlijnVan archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin Klijn
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
 

Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018

  • 1. Hoe zoeken mensen door historische kranten? Martijn Kleppe hoofd afd. Onderzoek Koninklijke Bibliotheek martijn.kleppe@kb.nl Jacco van Ossenbruggen hoofd Information Access onderzoeksgroep Centrum voor Wiskunde en Informatica hoofd User-Centric Data Science onderzoeksgroep VU Amsterdam Jacco.van.Ossenbruggen@cwi.nl Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink https://goo.gl/Yfc92V
  • 2. In 2017: ● 843.463 bezoekers ● 2.188.237 sessies ● 33.460.531 pagina weergeven ● 15.29 pagina’s per sessie ● 14:44 minuten per sessie
  • 3.
  • 4.
  • 6.
  • 7.
  • 9. Geesteswetenschappelijk Onderzoekers Bronnenonderzoek Studenten Paper schrijven Docenten Lessen voorbereiden & profielwerkstukken begeleiden Algemeen geïnteresseerden Informatie zoeken & delen Beginnende data onderzoeker Corpus samenstellen & analyseren
  • 12. CWI Information Access onderzoeksgroep ● Wij onderzoeken ondersteuning van taken met: ○ Te veel data om het alleen door mensen te laten doen ○ Te subjectieve data om het alleen door computers te laten doen ● Vereist dat mensen de mogelijkheden maar ook de beperkingen van de techniek kunnen inschatten ○ Maar: veel gebruikers kunnen dat niet (van naïef enthousiast tot totale digifoob) ○ Erger: informatici zoals ik kunnen dat soms ook niet ● Ons doel is: ○ Ook beperkingen objectief meetbaar en inzichtelijk te maken ○ Methodes ontwikkelen om impact van generieke oplossingen op specifieke gevallen in te schatten
  • 13. Google afbeeldingen, gezocht op ‘‘professional hair for work’’ The Guardian, 8 april 2016
  • 14. Google afbeeldingen, gezocht op ‘‘unprofessional hair for work’’ The Guardian, 8 april 2016 Is Google’s zoekmachine seksistisch en racistisch? ● Generiek algoritme dat vaak prima werkt (maar dus niet altijd) ● Combinatie algoritme + veel verschillende data = onvoorspelbaar ● Hoe kun je dit soort “bias” meten en/of afschatten? ● Voorbeeld: voorspel effect van trainen van deep learning algoritmen op Delpher corpus ● Trainen we met of zonder nazi oorlogskranten? ● ...
  • 15. Studie naar Delpher “gebruikers logs” Problemen bij de analyse van zoekopdrachten (“queries”) Data is lastig: ● Query kan privacygevoelig materiaal bevatten (“ego surfing”) ○ “ossenbruggen zedenzaak” ● Query is slechts een indicatie van wat de gebruiker echt zoekt (“intent”) ● Bijna elke query is uniek (“long tail”) Software is ook lastig: ● Te veel log data om met de hand te onderzoeken ● Te specifieke data om alleen generieke software te gebruiken ● We willen geen “PhD-ware” ○ software die alleen bestaat op de laptop van een reeds vertrokken student
  • 17. Example server log (± 1000M regels zoals deze) … 2017-07-01 00:00:05 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A010640461%3Ampeg21%3Aa0051&query=Comedy+Parade" 80 - - 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" "http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980- 1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 184205 2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A011205563%3Ampeg21%3Aa0129&query=Comedy+Parade" 80 - - 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" "http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980- 1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 60935 2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=KBNRC01%3A000030366%3Ampeg21%3Aa0151&query=Volkskrant+van+10+sept+1958" 80 - - 192.16.196.210 "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_2 like Mac OS X) AppleWebKit/603.2.4 (KHTML, like Gecko) Mobile/14F89 [FBAN/FBIOS;FBAV/99.0.0.57.70;FBBV/63577032;FBDV/iPhone7,1;FBMD/iPhone;FBSN/iOS;FBSV/10.3.2;FBSS/3;FBCR/vfnl;FBID/phone;FBLC/nl_NL;FBOP/5; FBRV/0]" "http://www.delpher.nl/nl/kranten/results?query=Volkskrant+van+10+sept+1958&page=1&coll=ddd" 200 259168 2017-07-01 00:00:09 192.87.31.13 GET /css/icons.css "?version=3.0.131" 80 - - 192.16.196.210 "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/601.7.7 (KHTML, like Gecko) Version/9.1.2 Safari/537.86.7" "http://www.delpher.nl/nl/boeken1/results?query=commandeur+duyn&page=1&coll=boeken1" 200 300
  • 18. Gebruikte software: SWISH datalab ● Web “notebook” platform ○ Alle data/software online beschikbaar (ipv op laptop PhD) ○ Stimuleert samenwerking ○ Beschikbaar voor collega wetenschappers en algemeen publiek ... ● “Publiek tenzij” ○ Delpher logs te privacygevoelig, SWISH draait achter dubbele firewall ○ Voorbeeld studie op publieke data: https://vre4eic.project.cwi.nl/gender/ ○ Elke resultaat (grafiek, tabel, statistische analysis) reproduceerbaar & transparent ○ Dit geldt ook voor alle voorbeeld resultaten die ik hierna laat zien!
  • 19. Wat zit er in de collectie vs. wat klikken mensen aan Familieberichten: • Vaak aangeklikt • 34% van alle familieberichten gezien in 6 maanden, (rest maar 3-5%) Sessies: • ‘Familiebericht” facet gebruikt in 19% sessies • Sessies kort, minder kliks & downloads • Weinig sessies zonder kliks
  • 20. Zoeken m.b.v. periode facet: • Veel 20ste eeuw • Piek rond WOII • Distributie in collectie minder gespreid dan in de kliks • Pieken klein beetje verschoven Sessies periode WOII: • Sessies in deze periode zijn langer dan gemiddeld • Meer zoek acties meer kliks
  • 21. Inzoomen op individu: • Twee voorbeelden van “sequentiele” gebruikers • typische “klikker” (links) • Typische “zoeker” (rechts)
  • 22. Inzoomen op individu: • Twee voorbeelden van “hiërarchische” gebruikers met complex zoekgedrag • typisch “exploratief” zoeken in illustraties & artikelen (boven) • Typisch “gefocust” zoeken in familieberichten (onder) • Maar: we hebben te veel van dit soort voorbeelden om allemaal te bestuderen
  • 23. Data-driven, bottom- up clusteren van gebruikerssessies Automatisch gegroepeerd Handmatig gelabeld
  • 24. Clusters goed stabiel over de maanden
  • 25. Metadata in de facets (rechts) en in de clicks (links) ● Wat zoeken mensen in de afzonderlijke clusters en wat vinden ze uiteindelijk? ● Hoe verhouden deze groepen zich met de “persona’s” uit het KB gebruikersonderzoek? ● Hoe communiceren we dit soort resultaten helder en transparant naar de KB & zijn gebruikers?
  • 26. www.kb.nl/onderzoeksagenda Volgende stappen: ➢ We moeten hier nog veel meer over leren & intern organiseren ➢ Apart thema in onze onderzoeksagenda: Hoe kunnen we het gedrag van onze klanten op verantwoorde wijze diepgaander analyseren? ➢ Investeren in kennis en mankracht ➢ Willen (& kunnen) dit niet alleen. ➢ Samenwerken? Fijn!
  • 27. Colofon ▪ Deze slides zijn deels de resultaten van onderzoek door Tessel Bogaard, Jan Wielemaker & Laura Hollink, op basis van 200M log records uit oktober 2015 - maart 2016 beschikbaar gesteld voor wetenschappelijk onderzoek door de KB aan het CWI onder strikte voorwaarden om de privacy van gebruikers te waarborgen. ▪ Dank aan KB collega’s Maaike Napolitano & Mirte Groskamp ▪ This research was partially supported by the VRE4EIC project, a project that has received funding from the European Union's Horizon 2020 research and innovation program under grant agreement No 676247.
  • 28. Hoe zoeken mensen door historische kranten? Martijn Kleppe hoofd afd. Onderzoek Koninklijke Bibliotheek martijn.kleppe@kb.nl Jacco van Ossenbruggen hoofd Information Access onderzoeksgroep Centrum voor Wiskunde en Informatica hoofd User-Centric Data Science onderzoeksgroep VU Amsterdam Jacco.van.Ossenbruggen@cwi.nl Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink