Big Data & Machine Learning - Mogelijkheden & Valkuilen
1. Big Data & Machine Learning
Mogelijkheden & Valkuilen
David Graus
2. Deel 0: Introductie
Wie ben ik? Wat is Big Data
& Machine Learning (ML)?
Deel I: Theorie
Hoe werkt ML?
Deel II: Voorbeelden
Mogelijkheden van Big Data & ML
Deel III: Valkuilen
Risico’s bij het gebruik van
ML & Big Data?
3. Wie ben ik?
PhD kandidaat @ UvA:
Semantic Search for E-Discovery
Data Scientist @ FD Mediagroep
4. Semantic Search for
E-Discovery
• E-Discovery: Ondersteunen van zoeken naar “bewijsmateriaal” in
ongestructureerde data (social media, forums, email, etc.)
• Semantic search: toegepaste machine learning en taaltechnologie
voor beter ontsluiten “digitale sporen.”
1. Herkennen structuur (entities) in ongestructureerde data (tekst).
2. Voorspellen van gebruikersgedrag op basis van data.
• Vakgebieden: Machine Learning, Text Mining, Information Retrieval.
8. 7
Only 4% of Web content (~8 billion pages)
is available via search engines like Google
The Public Web
Source: The Deep Web: Semantic Search Takes Innovation to New Depths
Big Data is Behind the Firewall
The Deep Web
Approximately 96% of information is
inside the firewall
Fragmented
Unmanaged
Growing
Hidden
7.9
Zettabytes
9. Kortom
• Big data:
• Veel (en steeds meer!)
• Snel
• Gevarieerd
• Ongestructureerd/“Onzeker”
11. Wat is Machine Learning?
• Subgebied van “AI” (Kunstmatige Intelligentie)
• The subfield of computer science that “gives
computers the ability to learn without being
explicitly programmed”
12.
13. • “AI-hype”
• IBM (Watson), Google (DeepMind)
• Futuristisch: Tesla (zelf-rijdende auto’s)
17. ML 101
• Voorspel: is iets lekker of niet lekker?
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
18. ML 101
• Voorspel: is iets lekker of niet lekker?
• Data:
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
19. ML 101
• Voorspel: is iets lekker of niet lekker?
• Data:
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
21. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
22. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
23. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
24. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
25. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
26. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
27. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
28. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
29. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
30. Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
32. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
33. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
34. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
35. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
36. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Appel
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
37. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Appel
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
38. Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Appel
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
42. Samenvattend
• Gegeven voorbeelden + labels.
• Omschrijf voorbeelden (features)
• Leer een model om features naar labels te
“vertalen”
• Bereken voor een nieuw voorbeeld de score
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
45. Waarom?
• Inzicht krijgen in communicatiepatronen.
• Wat zijn de factoren die communicatie bepalen?
• Ontdekken ‘afwijkende’ communicatiepatronen.
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
46. Hoe?
• Leer van (historische) digitale sporen.
• Vergelijk invloed van:
1. Inhoud van email
2. Communicatie netwerk
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
47. Communicatie netwerk
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
57. Bevindingen
• Email inhoud heeft meer voorspelbare waarde dan
het netwerk.
• Combineren levert het meest effectieve voorspellen.
• Juiste voorspelling in ~66% van de gevallen.
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
59. Wat?
• Computermodellen inzetten om te onderzoeken hoe
een crimineel netwerk op te rollen.
• Case-study: illegale hennepteelt
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
60. Hoe?
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
61. Hoe?
Data
Criminele netwerken (personen & contacten)
opgebouwd uit inlichtingeninformatie.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
62. Hoe?
Data
Criminele netwerken (personen & contacten)
opgebouwd uit inlichtingeninformatie.
Voorspel
Experimenteer met het weghalen van knooppunten
(= personen) uit het netwerk; meet welke de meeste
invloed hebben op de “gezondheid” van het
netwerk.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
63. Duijn et al. 'The Relative Ineffectiveness
of Criminal Network Disruption’ (2014)
64. Duijn et al. 'The Relative Ineffectiveness
of Criminal Network Disruption’ (2014)
65. Bevindingen
• Niet de meest centrale/invloedrijke criminelen,
maar de gespecialiseerde faciliterende personen
verwijderen is het effectiefst in het verstoren van
het netwerk.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
66. Bevindingen
• Niet de meest centrale/invloedrijke criminelen,
maar de gespecialiseerde faciliterende personen
verwijderen is het effectiefst in het verstoren van
het netwerk.
• Computersimulaties om “goedkoop” verschillende
interventiestrategieën te testen en te meten.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
68. Waarom?
• Enorm veel gegevens en informatie beschikbaar op
stadsniveau.
• Case-study: “illegal conversions” van
appartementen
• Opsplitsen van appartementen voor illegale
onderhuur.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
70. Hoe?
Data
Breng alle kavels in kaart.
“Verrijk” kavels met extra
databronnen.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
71. Hoe?
Data
Breng alle kavels in kaart.
“Verrijk” kavels met extra
databronnen.
Voorspel
Leer van 5 jaar historische data
welke kavels het meest
waarschijnlijk “illegally
converted” zijn.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
72. Bevindingen
• effectiviteit van opsporen conversions van 13%
naar 70%.
• Data die op het eerste gezicht niet gerelateerd
lijken, hebben grote voorspelbare waarde.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
73. 4: Voorspellende waarde
Facebook likes
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
74. 4: Voorspellende waarde
Facebook likes
Data: ~58.000 respondenten
- Facebook profiel: leeftijd, relatie, etc.
- Enquête informatie: roken/drankgebruik, etc.
- Facebook likes (gem. ~170 pp)
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
75. 4: Voorspellende waarde
Facebook likes
Data: ~58.000 respondenten
- Facebook profiel: leeftijd, relatie, etc.
- Enquête informatie: roken/drankgebruik, etc.
- Facebook likes (gem. ~170 pp)
Voorspel
Gegeven likes van alle respondenten voorspel
Facebook profiel/enquête data.
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
76. Kosinski et al., “Private traits and attributes are
predictable from digital records of human behavior” (2013)
77. Bevindingen
• Automatisch categoriseren van mensen op basis
van likes.
• “Verlies” privacy door wat anderen delen.
• Zelfs met een weinig likes (1-5) kun je accurate
voorspellingen maken.
80. Wrap-up
(Big) Data:
1. (Historisch) Email verkeer
2. Politie/overheidsdata
3. Stadsdata
4. Facebook likes
Voorspellingen:
1. Wie communiceert met wie
(en waarom)?
2. Wie moet je oppakken om een
netwerk te verstoren?
3. Wie zijn de verdachten van
illegale activiteiten?
4. Wie is de persoon achter een
Facebook profiel?
84. • Steeds meer data/ML “achter de schermen”
• Credit scores.
• Sollicitanten matchen op basis van CV analyse.
• Algorithmic Price Discrimination.
• In het extreme: China’s “Social Credit System.”
Risico’s
85. Risico’s
• ML heeft tot doel m.b.v. (historische) data de meest
waarschijnlijke uitkomst te voorspellen.
• Aanname: patronen herhalen zich
• Gevolg: geleerde “vooroordelen” bestaan voort.
• Voorspel het meest waarschijnlijke: optimalisatie
voor de gemene deler.
86. Algorithmic Bias
• Men ziet technologie, algoritmen, en wiskundige
modellen veelal als “neutraal,” en “objectief.”
• Maar dat zijn ze niet: ze zijn een reflectie van
onszelf, en leren van “ons”
• Bias In, Bias Out
89. Algorithmic Bias
• Relatief nieuw “topic”
• Politieke agenda:
• EU (General Data Protection Regulation)
• The White House “Big Data” reports [1, 2]
• En ook steeds meer vanuit de informatica.
https://www.whitehouse.gov/sites/default/files/microsites/ostp/2016_0504_data_discrimination.pdf
https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
90. Begrijp de data
• Onderzoek van Google naar het ‘eerlijk maken’ van
banken leen-krediet systeem
• Automatisch compenseren van beslissingsfunctie
voor aanwezige subgroepen in data.
97. Begrijp de data
• Van belang om goed de verschillende subgroepen
te vinden.
http://research.google.com/bigpicture/attacking-discrimination-in-ml/
98. Begrijp het proces
• Verander de perceptie. De uitkomst van een ML
model is ook maar een ‘standpunt’ — indirect een
reflectie van onszelf.
• Behandel deze systemen dus niet als ‘orakel.’
• EU wetgeving is een stap in de goede richting.
99. Samenvattend
• Veel mogelijkheden
• Ongekende hoeveelheid data + snelle computerhardware
+ slimme algoritmen.
• Steeds toegankelijker.
• Algemene tendens = grotere rol van big data/ML.
• Pas op voor valkuilen!
• Bias In, Bias Out
• Algoritmen zijn geen orakels