SlideShare a Scribd company logo
1 of 100
Download to read offline
Big Data & Machine Learning
Mogelijkheden & Valkuilen
David Graus
Deel 0: Introductie

Wie ben ik? Wat is Big Data 

& Machine Learning (ML)?
Deel I: Theorie

Hoe werkt ML?
Deel II: Voorbeelden

Mogelijkheden van Big Data & ML
Deel III: Valkuilen

Risico’s bij het gebruik van 

ML & Big Data?
Wie ben ik?
PhD kandidaat @ UvA: 

Semantic Search for E-Discovery
Data Scientist @ FD Mediagroep
Semantic Search for 

E-Discovery
• E-Discovery: Ondersteunen van zoeken naar “bewijsmateriaal” in
ongestructureerde data (social media, forums, email, etc.)
• Semantic search: toegepaste machine learning en taaltechnologie
voor beter ontsluiten “digitale sporen.”
1. Herkennen structuur (entities) in ongestructureerde data (tekst).
2. Voorspellen van gebruikersgedrag op basis van data.
• Vakgebieden: Machine Learning, Text Mining, Information Retrieval.
Wat is big data?
Wat is big data?
Big data
Bron: 

domo.com
7
Only 4% of Web content (~8 billion pages)
is available via search engines like Google
The Public Web
Source: The Deep Web: Semantic Search Takes Innovation to New Depths
Big Data is Behind the Firewall
The Deep Web
Approximately 96% of information is
inside the firewall
Fragmented
Unmanaged
Growing
Hidden
7.9
Zettabytes
Kortom
• Big data:
• Veel (en steeds meer!)
• Snel
• Gevarieerd
• Ongestructureerd/“Onzeker”
Wat is Machine Learning?
Wat is Machine Learning?
• Subgebied van “AI” (Kunstmatige Intelligentie)
• The subfield of computer science that “gives
computers the ability to learn without being
explicitly programmed”
• “AI-hype”
• IBM (Watson), Google (DeepMind)
• Futuristisch: Tesla (zelf-rijdende auto’s)
Deel I: 

Hoe werkt 

Machine Learning?
ML 101
• Voorspel: is iets lekker of niet lekker?
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
ML 101
• Voorspel: is iets lekker of niet lekker?
• Data:
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
ML 101
• Voorspel: is iets lekker of niet lekker?
• Data:
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Feature Extraction
Beschrijf: is het zoet, zout, knapperig, groente?
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Appel
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Appel
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Leer een model
Leer een ‘puntentelling’ die Lekker/Niet lekker van
elkaar kan scheiden
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
3
2
3
1
0
0
zoet zout knapperig groente
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Appel
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Voorspel
Bereken de score voor “nieuwe” data.
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Appel 3 0 1 0
3
2
3
1
0
0
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Voorspel
Bereken de score voor “nieuwe” data.
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Appel 3 0 1 0 4
3
2
3
1
0
0
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Voorspel
Bereken de score voor “nieuwe” data.
IJs
Pizza
Aardbeien
Sardines
Broccoli
Spruitjes
zoet zout knapperig groente
Appel 3 0 1 0 4
3
2
3
1
0
0
Lekker
Lekker
Lekker
Niet lekker
Niet lekker
Niet lekker
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
3
0
3
0
0
0
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
-1
-1
Lekker
Samenvattend
• Gegeven voorbeelden + labels.
• Omschrijf voorbeelden (features)
• Leer een model om features naar labels te
“vertalen”
• Bereken voor een nieuw voorbeeld de score
Daniel Tunkelang,
quora.com/How-do-you-explain-machine-learning-to-a-child
Deel II: 

Voorbeelden
1: Voorspellen 

email communicatie
Waarom?
• Inzicht krijgen in communicatiepatronen.
• Wat zijn de factoren die communicatie bepalen?
• Ontdekken ‘afwijkende’ communicatiepatronen.
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Hoe?
• Leer van (historische) digitale sporen.
• Vergelijk invloed van:
1. Inhoud van email
2. Communicatie netwerk
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
derijke@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
derijke@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
derijke@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
Communicatie netwerk
d.p.graus@uva.nl z.ren@uva.nl
derijke@uva.nl
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
image by Calvinius - Creative Commons Attribution-Share Alike 3.0
Bevindingen
• Email inhoud heeft meer voorspelbare waarde dan
het netwerk.
• Combineren levert het meest effectieve voorspellen.
• Juiste voorspelling in ~66% van de gevallen.
Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
2: Structuur van
Criminele Netwerken
Wat?
• Computermodellen inzetten om te onderzoeken hoe
een crimineel netwerk op te rollen.
• Case-study: illegale hennepteelt
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
Hoe?
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
Hoe?
Data

Criminele netwerken (personen & contacten)
opgebouwd uit inlichtingeninformatie.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
Hoe?
Data

Criminele netwerken (personen & contacten)
opgebouwd uit inlichtingeninformatie.
Voorspel

Experimenteer met het weghalen van knooppunten
(= personen) uit het netwerk; meet welke de meeste
invloed hebben op de “gezondheid” van het
netwerk.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
Duijn et al. 'The Relative Ineffectiveness
of Criminal Network Disruption’ (2014)
Duijn et al. 'The Relative Ineffectiveness
of Criminal Network Disruption’ (2014)
Bevindingen
• Niet de meest centrale/invloedrijke criminelen,
maar de gespecialiseerde faciliterende personen
verwijderen is het effectiefst in het verstoren van
het netwerk.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
Bevindingen
• Niet de meest centrale/invloedrijke criminelen,
maar de gespecialiseerde faciliterende personen
verwijderen is het effectiefst in het verstoren van
het netwerk.
• Computersimulaties om “goedkoop” verschillende
interventiestrategieën te testen en te meten.
Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
3: New York City’s Geek Squad
Waarom?
• Enorm veel gegevens en informatie beschikbaar op 

stadsniveau.
• Case-study: “illegal conversions” van
appartementen
• Opsplitsen van appartementen voor illegale
onderhuur.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
Hoe?
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
Hoe?
Data

Breng alle kavels in kaart.

“Verrijk” kavels met extra 

databronnen.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
Hoe?
Data

Breng alle kavels in kaart.

“Verrijk” kavels met extra 

databronnen.
Voorspel

Leer van 5 jaar historische data 

welke kavels het meest 

waarschijnlijk “illegally 

converted” zijn.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
Bevindingen
• effectiviteit van opsporen conversions van 13%
naar 70%.
• Data die op het eerste gezicht niet gerelateerd
lijken, hebben grote voorspelbare waarde.
http://www.slate.com/articles/technology/future_tense/2013/03/
big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
4: Voorspellende waarde
Facebook likes
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
4: Voorspellende waarde
Facebook likes
Data: ~58.000 respondenten

- Facebook profiel: leeftijd, relatie, etc.

- Enquête informatie: roken/drankgebruik, etc. 

- Facebook likes (gem. ~170 pp)
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
4: Voorspellende waarde
Facebook likes
Data: ~58.000 respondenten

- Facebook profiel: leeftijd, relatie, etc.

- Enquête informatie: roken/drankgebruik, etc. 

- Facebook likes (gem. ~170 pp)
Voorspel

Gegeven likes van alle respondenten voorspel
Facebook profiel/enquête data.
Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
Kosinski et al., “Private traits and attributes are 

predictable from digital records of human behavior” (2013)
Bevindingen
• Automatisch categoriseren van mensen op basis
van likes.
• “Verlies” privacy door wat anderen delen.
• Zelfs met een weinig likes (1-5) kun je accurate
voorspellingen maken.
Wrap-up
Wrap-up
(Big) Data:
1. (Historisch) Email verkeer

2. Politie/overheidsdata

3. Stadsdata

4. Facebook likes
Wrap-up
(Big) Data:
1. (Historisch) Email verkeer

2. Politie/overheidsdata

3. Stadsdata

4. Facebook likes
Voorspellingen:
1. Wie communiceert met wie 

(en waarom)?
2. Wie moet je oppakken om een 

netwerk te verstoren?
3. Wie zijn de verdachten van 

illegale activiteiten?
4. Wie is de persoon achter een 

Facebook profiel?
Veel mogelijkheden!
• We gebruiken het dagelijks.
Veel mogelijkheden!
• We gebruiken het dagelijks.
• En steeds meer in de toekomst.
Deel III: 

Valkuilen
• Steeds meer data/ML “achter de schermen”
• Credit scores.
• Sollicitanten matchen op basis van CV analyse.
• Algorithmic Price Discrimination.
• In het extreme: China’s “Social Credit System.”
Risico’s
Risico’s
• ML heeft tot doel m.b.v. (historische) data de meest
waarschijnlijke uitkomst te voorspellen.
• Aanname: patronen herhalen zich
• Gevolg: geleerde “vooroordelen” bestaan voort.
• Voorspel het meest waarschijnlijke: optimalisatie
voor de gemene deler.
Algorithmic Bias
• Men ziet technologie, algoritmen, en wiskundige
modellen veelal als “neutraal,” en “objectief.”
• Maar dat zijn ze niet: ze zijn een reflectie van
onszelf, en leren van “ons”
• Bias In, Bias Out
Voorbeeld
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
Voorbeeld
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
Algorithmic Bias
• Relatief nieuw “topic”
• Politieke agenda:
• EU (General Data Protection Regulation)
• The White House “Big Data” reports [1, 2]
• En ook steeds meer vanuit de informatica.
https://www.whitehouse.gov/sites/default/files/microsites/ostp/2016_0504_data_discrimination.pdf
https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
Begrijp de data
• Onderzoek van Google naar het ‘eerlijk maken’ van
banken leen-krediet systeem
• Automatisch compenseren van beslissingsfunctie
voor aanwezige subgroepen in data.
http://research.google.com/bigpicture/attacking-discrimination-in-ml/
http://research.google.com/bigpicture/attacking-discrimination-in-ml/
http://research.google.com/bigpicture/attacking-discrimination-in-ml/
Begrijp de data
• Van belang om goed de verschillende subgroepen
te vinden.
http://research.google.com/bigpicture/attacking-discrimination-in-ml/
Begrijp het proces
• Verander de perceptie. De uitkomst van een ML
model is ook maar een ‘standpunt’ — indirect een
reflectie van onszelf.
• Behandel deze systemen dus niet als ‘orakel.’
• EU wetgeving is een stap in de goede richting.
Samenvattend
• Veel mogelijkheden
• Ongekende hoeveelheid data + snelle computerhardware
+ slimme algoritmen.
• Steeds toegankelijker.
• Algemene tendens = grotere rol van big data/ML.
• Pas op voor valkuilen!
• Bias In, Bias Out
• Algoritmen zijn geen orakels
Einde
David Graus
david.graus@fdmediagroep.nl
@dvdgrs
Vragen?

More Related Content

Viewers also liked

Social Media for Scientists
Social Media for ScientistsSocial Media for Scientists
Social Media for Scientists3rhinomedia
 
Social media for the busy scientist
Social media for the busy scientistSocial media for the busy scientist
Social media for the busy scientistFelienne Hermans
 
How to Be A Social Media God: A Guide for Scientists
How to Be A Social Media God: A Guide for ScientistsHow to Be A Social Media God: A Guide for Scientists
How to Be A Social Media God: A Guide for ScientistsCraig McClain
 
Gastcollege Hanzehogeschool Data Science 17 januari 2017
Gastcollege Hanzehogeschool Data Science 17 januari 2017Gastcollege Hanzehogeschool Data Science 17 januari 2017
Gastcollege Hanzehogeschool Data Science 17 januari 2017Rolf Akker
 
Document Classification using the Python Natural Language Toolkit
Document Classification using the Python Natural Language ToolkitDocument Classification using the Python Natural Language Toolkit
Document Classification using the Python Natural Language ToolkitBen Healey
 
Master Minds on Data Science - Martin Prins
Master Minds on Data Science - Martin PrinsMaster Minds on Data Science - Martin Prins
Master Minds on Data Science - Martin PrinsMedia Perspectives
 
Resume's for Computer Science students 2014
 Resume's for Computer Science students 2014 Resume's for Computer Science students 2014
Resume's for Computer Science students 2014sharbour
 
H2O Big Join Slides
H2O Big Join SlidesH2O Big Join Slides
H2O Big Join SlidesSri Ambati
 
Building a Machine Learning App with AWS Lambda
Building a Machine Learning App with AWS LambdaBuilding a Machine Learning App with AWS Lambda
Building a Machine Learning App with AWS LambdaSri Ambati
 
Intro to Machine Learning with H2O and AWS
Intro to Machine Learning with H2O and AWSIntro to Machine Learning with H2O and AWS
Intro to Machine Learning with H2O and AWSSri Ambati
 
Tensorflow in production with AWS Lambda
Tensorflow in production with AWS LambdaTensorflow in production with AWS Lambda
Tensorflow in production with AWS LambdaFabian Dubois
 
Soal dan pembahasan statistika
Soal dan pembahasan statistikaSoal dan pembahasan statistika
Soal dan pembahasan statistikasatriyo buaya
 

Viewers also liked (14)

Noticia sobre o Projeto Fazendo Novas Amizades
Noticia sobre o Projeto Fazendo Novas AmizadesNoticia sobre o Projeto Fazendo Novas Amizades
Noticia sobre o Projeto Fazendo Novas Amizades
 
Social Media for Scientists
Social Media for ScientistsSocial Media for Scientists
Social Media for Scientists
 
Social media for the busy scientist
Social media for the busy scientistSocial media for the busy scientist
Social media for the busy scientist
 
Retentiemanagement
RetentiemanagementRetentiemanagement
Retentiemanagement
 
How to Be A Social Media God: A Guide for Scientists
How to Be A Social Media God: A Guide for ScientistsHow to Be A Social Media God: A Guide for Scientists
How to Be A Social Media God: A Guide for Scientists
 
Gastcollege Hanzehogeschool Data Science 17 januari 2017
Gastcollege Hanzehogeschool Data Science 17 januari 2017Gastcollege Hanzehogeschool Data Science 17 januari 2017
Gastcollege Hanzehogeschool Data Science 17 januari 2017
 
Document Classification using the Python Natural Language Toolkit
Document Classification using the Python Natural Language ToolkitDocument Classification using the Python Natural Language Toolkit
Document Classification using the Python Natural Language Toolkit
 
Master Minds on Data Science - Martin Prins
Master Minds on Data Science - Martin PrinsMaster Minds on Data Science - Martin Prins
Master Minds on Data Science - Martin Prins
 
Resume's for Computer Science students 2014
 Resume's for Computer Science students 2014 Resume's for Computer Science students 2014
Resume's for Computer Science students 2014
 
H2O Big Join Slides
H2O Big Join SlidesH2O Big Join Slides
H2O Big Join Slides
 
Building a Machine Learning App with AWS Lambda
Building a Machine Learning App with AWS LambdaBuilding a Machine Learning App with AWS Lambda
Building a Machine Learning App with AWS Lambda
 
Intro to Machine Learning with H2O and AWS
Intro to Machine Learning with H2O and AWSIntro to Machine Learning with H2O and AWS
Intro to Machine Learning with H2O and AWS
 
Tensorflow in production with AWS Lambda
Tensorflow in production with AWS LambdaTensorflow in production with AWS Lambda
Tensorflow in production with AWS Lambda
 
Soal dan pembahasan statistika
Soal dan pembahasan statistikaSoal dan pembahasan statistika
Soal dan pembahasan statistika
 

More from David Graus

Pragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsPragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsDavid Graus
 
Bias in Recommendations
Bias in RecommendationsBias in Recommendations
Bias in RecommendationsDavid Graus
 
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.David Graus
 
CAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactCAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactDavid Graus
 
Opening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsOpening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsDavid Graus
 
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyZoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyDavid Graus
 
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesLayman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesDavid Graus
 
Financial News Mining @ PyData Amsterdam
Financial News Mining @ PyData AmsterdamFinancial News Mining @ PyData Amsterdam
Financial News Mining @ PyData AmsterdamDavid Graus
 
Financial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.infoFinancial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.infoDavid Graus
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDavid Graus
 
Understanding Email Traffic
Understanding Email TrafficUnderstanding Email Traffic
Understanding Email TrafficDavid Graus
 
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus
 
Semantic Search in E-Discovery
Semantic Search in E-DiscoverySemantic Search in E-Discovery
Semantic Search in E-DiscoveryDavid Graus
 
Semantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseSemantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseDavid Graus
 
Semantic annotation, clustering and visualization
Semantic annotation, clustering and visualizationSemantic annotation, clustering and visualization
Semantic annotation, clustering and visualizationDavid Graus
 

More from David Graus (15)

Pragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsPragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientists
 
Bias in Recommendations
Bias in RecommendationsBias in Recommendations
Bias in Recommendations
 
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
 
CAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactCAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for Impact
 
Opening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsOpening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender Systems
 
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyZoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
 
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesLayman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
 
Financial News Mining @ PyData Amsterdam
Financial News Mining @ PyData AmsterdamFinancial News Mining @ PyData Amsterdam
Financial News Mining @ PyData Amsterdam
 
Financial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.infoFinancial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.info
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity Ranking
 
Understanding Email Traffic
Understanding Email TrafficUnderstanding Email Traffic
Understanding Email Traffic
 
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
 
Semantic Search in E-Discovery
Semantic Search in E-DiscoverySemantic Search in E-Discovery
Semantic Search in E-Discovery
 
Semantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseSemantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron Database
 
Semantic annotation, clustering and visualization
Semantic annotation, clustering and visualizationSemantic annotation, clustering and visualization
Semantic annotation, clustering and visualization
 

Big Data & Machine Learning - Mogelijkheden & Valkuilen

  • 1. Big Data & Machine Learning Mogelijkheden & Valkuilen David Graus
  • 2. Deel 0: Introductie
 Wie ben ik? Wat is Big Data 
 & Machine Learning (ML)? Deel I: Theorie
 Hoe werkt ML? Deel II: Voorbeelden
 Mogelijkheden van Big Data & ML Deel III: Valkuilen
 Risico’s bij het gebruik van 
 ML & Big Data?
  • 3. Wie ben ik? PhD kandidaat @ UvA: 
 Semantic Search for E-Discovery Data Scientist @ FD Mediagroep
  • 4. Semantic Search for 
 E-Discovery • E-Discovery: Ondersteunen van zoeken naar “bewijsmateriaal” in ongestructureerde data (social media, forums, email, etc.) • Semantic search: toegepaste machine learning en taaltechnologie voor beter ontsluiten “digitale sporen.” 1. Herkennen structuur (entities) in ongestructureerde data (tekst). 2. Voorspellen van gebruikersgedrag op basis van data. • Vakgebieden: Machine Learning, Text Mining, Information Retrieval.
  • 5. Wat is big data?
  • 6. Wat is big data?
  • 8. 7 Only 4% of Web content (~8 billion pages) is available via search engines like Google The Public Web Source: The Deep Web: Semantic Search Takes Innovation to New Depths Big Data is Behind the Firewall The Deep Web Approximately 96% of information is inside the firewall Fragmented Unmanaged Growing Hidden 7.9 Zettabytes
  • 9. Kortom • Big data: • Veel (en steeds meer!) • Snel • Gevarieerd • Ongestructureerd/“Onzeker”
  • 10. Wat is Machine Learning?
  • 11. Wat is Machine Learning? • Subgebied van “AI” (Kunstmatige Intelligentie) • The subfield of computer science that “gives computers the ability to learn without being explicitly programmed”
  • 12.
  • 13. • “AI-hype” • IBM (Watson), Google (DeepMind) • Futuristisch: Tesla (zelf-rijdende auto’s)
  • 14.
  • 15.
  • 16. Deel I: 
 Hoe werkt 
 Machine Learning?
  • 17. ML 101 • Voorspel: is iets lekker of niet lekker? Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 18. ML 101 • Voorspel: is iets lekker of niet lekker? • Data: IJs Pizza Aardbeien Sardines Broccoli Spruitjes Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 19. ML 101 • Voorspel: is iets lekker of niet lekker? • Data: IJs Pizza Aardbeien Sardines Broccoli Spruitjes Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 20. Feature Extraction IJs Pizza Aardbeien Sardines Broccoli Spruitjes Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 21. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 22. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 23. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 24. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 25. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 26. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 27. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 28. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 29. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 30. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 31. Leer een model IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 32. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 33. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 34. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 35. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 36. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Appel Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 37. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Appel Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 38. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Appel Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 39. Voorspel Bereken de score voor “nieuwe” data. IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Appel 3 0 1 0 3 2 3 1 0 0 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1
  • 40. Voorspel Bereken de score voor “nieuwe” data. IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Appel 3 0 1 0 4 3 2 3 1 0 0 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1
  • 41. Voorspel Bereken de score voor “nieuwe” data. IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Appel 3 0 1 0 4 3 2 3 1 0 0 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker
  • 42. Samenvattend • Gegeven voorbeelden + labels. • Omschrijf voorbeelden (features) • Leer een model om features naar labels te “vertalen” • Bereken voor een nieuw voorbeeld de score Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  • 44. 1: Voorspellen 
 email communicatie
  • 45. Waarom? • Inzicht krijgen in communicatiepatronen. • Wat zijn de factoren die communicatie bepalen? • Ontdekken ‘afwijkende’ communicatiepatronen. Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 46. Hoe? • Leer van (historische) digitale sporen. • Vergelijk invloed van: 1. Inhoud van email 2. Communicatie netwerk Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 47. Communicatie netwerk Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 48. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 49. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 50. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 51. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 52. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 53. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 54. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 55. image by Calvinius - Creative Commons Attribution-Share Alike 3.0
  • 56.
  • 57. Bevindingen • Email inhoud heeft meer voorspelbare waarde dan het netwerk. • Combineren levert het meest effectieve voorspellen. • Juiste voorspelling in ~66% van de gevallen. Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  • 59. Wat? • Computermodellen inzetten om te onderzoeken hoe een crimineel netwerk op te rollen. • Case-study: illegale hennepteelt Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 60. Hoe? Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 61. Hoe? Data
 Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 62. Hoe? Data
 Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie. Voorspel
 Experimenteer met het weghalen van knooppunten (= personen) uit het netwerk; meet welke de meeste invloed hebben op de “gezondheid” van het netwerk. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 63. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 64. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 65. Bevindingen • Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 66. Bevindingen • Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk. • Computersimulaties om “goedkoop” verschillende interventiestrategieën te testen en te meten. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  • 67. 3: New York City’s Geek Squad
  • 68. Waarom? • Enorm veel gegevens en informatie beschikbaar op 
 stadsniveau. • Case-study: “illegal conversions” van appartementen • Opsplitsen van appartementen voor illegale onderhuur. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  • 70. Hoe? Data
 Breng alle kavels in kaart.
 “Verrijk” kavels met extra 
 databronnen. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  • 71. Hoe? Data
 Breng alle kavels in kaart.
 “Verrijk” kavels met extra 
 databronnen. Voorspel
 Leer van 5 jaar historische data 
 welke kavels het meest 
 waarschijnlijk “illegally 
 converted” zijn. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  • 72. Bevindingen • effectiviteit van opsporen conversions van 13% naar 70%. • Data die op het eerste gezicht niet gerelateerd lijken, hebben grote voorspelbare waarde. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  • 73. 4: Voorspellende waarde Facebook likes Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
  • 74. 4: Voorspellende waarde Facebook likes Data: ~58.000 respondenten
 - Facebook profiel: leeftijd, relatie, etc.
 - Enquête informatie: roken/drankgebruik, etc. 
 - Facebook likes (gem. ~170 pp) Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
  • 75. 4: Voorspellende waarde Facebook likes Data: ~58.000 respondenten
 - Facebook profiel: leeftijd, relatie, etc.
 - Enquête informatie: roken/drankgebruik, etc. 
 - Facebook likes (gem. ~170 pp) Voorspel
 Gegeven likes van alle respondenten voorspel Facebook profiel/enquête data. Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
  • 76. Kosinski et al., “Private traits and attributes are 
 predictable from digital records of human behavior” (2013)
  • 77. Bevindingen • Automatisch categoriseren van mensen op basis van likes. • “Verlies” privacy door wat anderen delen. • Zelfs met een weinig likes (1-5) kun je accurate voorspellingen maken.
  • 79. Wrap-up (Big) Data: 1. (Historisch) Email verkeer
 2. Politie/overheidsdata
 3. Stadsdata
 4. Facebook likes
  • 80. Wrap-up (Big) Data: 1. (Historisch) Email verkeer
 2. Politie/overheidsdata
 3. Stadsdata
 4. Facebook likes Voorspellingen: 1. Wie communiceert met wie 
 (en waarom)? 2. Wie moet je oppakken om een 
 netwerk te verstoren? 3. Wie zijn de verdachten van 
 illegale activiteiten? 4. Wie is de persoon achter een 
 Facebook profiel?
  • 81. Veel mogelijkheden! • We gebruiken het dagelijks.
  • 82. Veel mogelijkheden! • We gebruiken het dagelijks. • En steeds meer in de toekomst.
  • 84. • Steeds meer data/ML “achter de schermen” • Credit scores. • Sollicitanten matchen op basis van CV analyse. • Algorithmic Price Discrimination. • In het extreme: China’s “Social Credit System.” Risico’s
  • 85. Risico’s • ML heeft tot doel m.b.v. (historische) data de meest waarschijnlijke uitkomst te voorspellen. • Aanname: patronen herhalen zich • Gevolg: geleerde “vooroordelen” bestaan voort. • Voorspel het meest waarschijnlijke: optimalisatie voor de gemene deler.
  • 86. Algorithmic Bias • Men ziet technologie, algoritmen, en wiskundige modellen veelal als “neutraal,” en “objectief.” • Maar dat zijn ze niet: ze zijn een reflectie van onszelf, en leren van “ons” • Bias In, Bias Out
  • 89. Algorithmic Bias • Relatief nieuw “topic” • Politieke agenda: • EU (General Data Protection Regulation) • The White House “Big Data” reports [1, 2] • En ook steeds meer vanuit de informatica. https://www.whitehouse.gov/sites/default/files/microsites/ostp/2016_0504_data_discrimination.pdf https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
  • 90. Begrijp de data • Onderzoek van Google naar het ‘eerlijk maken’ van banken leen-krediet systeem • Automatisch compenseren van beslissingsfunctie voor aanwezige subgroepen in data.
  • 91.
  • 92.
  • 93.
  • 97. Begrijp de data • Van belang om goed de verschillende subgroepen te vinden. http://research.google.com/bigpicture/attacking-discrimination-in-ml/
  • 98. Begrijp het proces • Verander de perceptie. De uitkomst van een ML model is ook maar een ‘standpunt’ — indirect een reflectie van onszelf. • Behandel deze systemen dus niet als ‘orakel.’ • EU wetgeving is een stap in de goede richting.
  • 99. Samenvattend • Veel mogelijkheden • Ongekende hoeveelheid data + snelle computerhardware + slimme algoritmen. • Steeds toegankelijker. • Algemene tendens = grotere rol van big data/ML. • Pas op voor valkuilen! • Bias In, Bias Out • Algoritmen zijn geen orakels