Timo Honkela: Kylmä data kohtaa inhimillisen tulkinnan, Studia Generalia -esitys 6.10.2016
1. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Timo Honkela
Helsingin yliopisto
6.10.2016
Kylmä data kohtaa
inhimillisen tulkinnan:
koneoppiminen
ihmistieteiden työkaluna
timo.honkela@helsinki.fi
Studia Generalia: MIKÄ BIG DATA?
2. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Liisa, meillä
on tehtävänä
opetella
ohjelmointia.
Kuvalähde: http://digi.kansalliskirjasto.fi/pienpainate/binding/346723?page=1 Inspiraatio: http://www.geekculture.com/joyoftech/joyarchives/2193.html
3. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
ILMIÖT JA ORGANISAATIOT:
HUMANISTISET JA
YHTEISKUNTATIETEET
HELSINGIN YLIOPISTON
KESKUSTAKAMPUS
4. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tieteiden kohteiden monimutkaisuus
Biologinen maailma
Fysikaalinen maailma
Kulttuurinen maailma
5. 5
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Englannin kielen osuus
eri tieteenaloilla Suomessa (1.-15.)
Matematiikka 95.3
Farmasia 94.1
Kemia 93.7
Fysiikka 93.4
Biokemia, molekyylibiologia, mikrobiologia, perinnöllisyystiede ja biotekniikka 93.4
Solu ja kehitysbiologia, fysiologia ja ekofysiologia 93.4
Tietojenkäsittelytieteet 93.0
Sähkötekniikka ja elektroniikka 92.8
Ympäristötekniikka 92.7
Geotieteet 92.1
Ekologia, evoluutiotutkimus ja systematiikka 92.1
Kone ja valmistustekniikka 91.9
Metsätieteet 91.4
Avaruustieteet ja tähtitiede 91.0
Prosessi ja materiaalitekniikka 90.8
(Timo Honkela, TUTKAS-seminaari 17.11.2010)
VANHA
TIETEEN-
ALALUO-
KITUS
6. 6
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Englannin kielen osuus
eri tieteenaloilla Suomessa (31.-44.)
(Timo Honkela, TUTKAS-seminaari 17.11.2010)
TIETEENALA %
Rakennus ja yhdyskuntatekniikka 85.9
Maatalous ja elintarviketieteet 85.4
Ympäristöpolitiikka, talous ja oikeus 85.3
Maantiede 84.8
Arkkitehtuuri ja teollinen muotoilu 83.7
Viestintä ja informaatiotieteet 83.1
Kasvatustiede 82.6
Valtiooppi ja hallintotiede 82.2
Taiteiden tutkimus 81.6
Sosiaalitieteet 80.4
Kulttuurien tutkimus 79.3
Historia ja arkeologia 78.1
Teologia 77.0
Oikeustiede 70.8
VANHA
TIETEEN-
ALALUO-
KITUS
7. 7
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Englannin kielen osuus
eri tieteenaloilla Suomessa (31.-44.)
TIETEENALA %
Rakennus ja yhdyskuntatekniikka 85,9
Maatalous ja elintarviketieteet 85,4
Ympäristöpolitiikka, talous ja oikeus 85,3
Maantiede 84,8
Arkkitehtuuri ja teollinen muotoilu 83,7
Viestintä ja informaatiotieteet 83,1
Kasvatustiede 82,6
Valtiooppi ja hallintotiede 82,2
Taiteiden tutkimus 81,6
Sosiaalitieteet 80,4
Kulttuurien tutkimus 79,3
Historia ja arkeologia 78,1
Teologia 77,0
Oikeustiede 70,8
VANHA
TIETEEN-
ALALUO-
KITUS
Tärkeitä tieteenaloja, joissa
kieli-, tulkitsija-, tilanne- ja
kulttuurisidonnaisuus
on paljon voimakkaampaa
kuin listan alkupään aloilla.
8. 8
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Digitaalisten ihmistieteiden
kehittyvä kukoistus
● Perinteinen syvällinen osaaminen ja ymmärrys
liittyen humanitisten ja yhteiskuntatieteiden
alueeseen
● Tämä ymmärrys yhdistetään nykyaikaisiin
tietojenkäsittelymenetelmiin kuten tilastolliseen
koneoppimiseen
● Avoin tiede ja laajat tietoaineistot antavat vahvan
pohjan työlle
● Helsingin yliopistossa on tehty työtä tällä saralla jo
esimerkiksi kielen tutkimuksessa pitkään. Viime
aikoina alue on laajentunut ja panostuksia on lisätty.
9. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Varieng - Research Unit for the Study of
Variation, Contacts and Change in English
Big Data, Rich Data,
Uncharted Data
19–22 October 2015
Helsinki, Finland
Terttu Nevalainen
Irma TaavitsainenTanja Säilyhttp://www.helsinki.fi/varieng/
http://www.helsinki.fi/varieng/people/varieng_saily.html
ja moni
muu ...
10. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
FIN-CLARIN on suomalaisten yliopistojen, CSC:n ja Kotimaisten
kielten keskuksen muodostama konsortio, joka auttaa eri alojen
tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan
kieliaineistoja. Osa kansainvälistä CLARIN ERI -tutkimusinfrastruktuuria.
Krister Lindén
ja moni muu ...
11. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneellinen ja koneavusteinen
kääntäminen ja tulkkaus
Jörg Tiedemann
ja muut
12. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Historiallisten sanomalehtien
tekstilouhinta
Mikko Tolonen
Kimmo Kettunen
13. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Citizen Mindscapes
Ymmärrystä yhteiskunnasta louhimalla
suuria sosiaalisen median aineistoja
14. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Esimerkki uudenlaisesta opetusta:
Digital Humanities Hackathon
15. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
375 humanistia
http://375humanistia.helsinki.fi/
16. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
HELDIG-avajaiset eilen 5.10.2016
Eero Hyvönen, Mikko Tolonen, Arto Mustajoki
Anna Mauranen
17. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Anna Mauranen
Arto Mustajoki
https://www.helsinki.fi/en/researchgroups/helsinki-digital-humanities/heldig-kick-off-symposium
18. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Maailman suurin
ongelma on, että
ihmiset eivät
ymmärrä toisiaan
Arto Mustajoki
20. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Yli sata miljoonaa kirjaa
http://www.pcworld.com/article/202803/google_129_million_different_books_have_been_published.html
● Googlen kirjaprojektissa kerrottiin vuonna
2010, että maailmassa on julkaistu
129 864 880 kirjaa
● Tarkan luvun antaminen ei ole kovin
mielekästä, koska kaikkia kirjoja Googlekaan
ei ole voinut löytää ja luku muuttuu jatkuvasti
21. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Pohjoismaat kirjoissa
(Google Books 1860-2006)
22. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Julkaisemisen volyymi
kolmessa yliopistossa 1980-2015
Kiitokset:LeoNäteaho,Helsinginyliopistonkirjasto
Artikkelit, kirjoissa
ilmestyneet artikkelit,
kirjat, konferenssijulkaisut
23. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Aineistojen digitointi:
esimerkkinä Kansalliskirjaston
sanomalehtiaineisto
http://digi.kansalliskirjasto.fi/
Digitointi > OCR > Hakutoiminnot ja jatkojalostus
https://www.kansalliskirjasto.fi/fi/palvelut#digitointi--ja-sailytyspalvelut
24. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Inhimillisen ymmärryksen
keruun vaiheita
● Puheeseen perustuva perinne
● Käsin kirjoitettu kieli: hidas leviäminen
● Kirjapainotaito ja painetut tekstit:
nopea leviäminen
● Digitaaliset tekstit:
entistäkin nopeampi leviäminen
● Tiedon määrämuotoinen linkittäminen ja avoin jakelu
(Open Linked Data)
● Sosiokognitiiviset keinotekoiset toimijat:
tiedon ja kokemuksen leviäminen yli
yksilö-, kieli-, kulttuuri- ja sosiaalisten rajojen
25. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
VÄLINEET:
TIETOKONEET
JA
OHJELMISTOT
26. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Laskenta- ja muistikapasiteetti
http://yle.fi/uutiset/3-6467338
http://yle.fi/uutiset/3-6467338
CSC Tieteen tietotekniikan keskus
https://www.csc.fi/
27. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Valtavat ohjelmistomassat
yhteiskunnan peruspilareina
http://www.informationisbeautiful.net/visualizations/million-lines-of-code/
Ohjelmarivejä:
- Unix 1.0 ~ 10.000
- Windows 3.1 ~ 2.000.000
- Firefox ~ 10.000.000
- Facebook ~ 60.000.000
- Googlen palvelut ~
2.000.000.000
Suomalaislähtöisiä:
- MySQL ~ 13.000.000
- Linux 3.1 ~ 15.000.000
28. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
MENETELMÄT:
TILASTOLLINEN
KONEOPPIMINEN
JA
KIELITEKNOLOGIA
29. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tietämyksen ohjelmoimisesta
koneoppimiseen
● Pitkään on ollut tapana ohjelmoida koneita inhimisen
tiedon puitteissa rajoituksineen
● 1980-luvulla maailmassa kehitettiin
miljardipanostuksin asiantuntijajärjestelmiä
ajatuksella, että asiantuntija tietää parhaiten ja pystyy
kuvaamaan tietämyksensä sääntöinä
● Nykyään koneet ohjelmoimaan oppimaan
● Tilastollisen koneoppimisen avulla kone voi osata
enemmän kuin kukaan ihminen
● Olennaisia ovat aineistot
●
30. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneoppiminen ja tiedon louhinta
● Tilastollisen koneoppimisen avulla matkitaan
ihmisen oppimista
● Kone käy läpi sille annettuja esimerkkejä
● Annetun datan perusteella kone oppii
esimerkiksi luokittelemaan, järjestämään,
ryhmittelemään, hahmottamaan,
käsitteistämään tai laittamaan
paremmuusjärjestykseen erilaisia tietoalkioita
31. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneille opetetaan kieltä
Koneet oppivat kieltä
● Perinteisesti koneet on pyritty saamaan
“kielitaitoisiksi” kirjoittamalla kielen sääntöjä
koneen ymmärtämään muotoon
● Tämän on kuitenkin osoittautunut
ongelmalliseksi
● Nykyisin hyödynnetään
koneoppimismenetelmiä
32. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Sanojen suhteet
paljastuvat niiden käytöstä
● Kun käytettävissä on suuria tekstiaineistoja,
mielivaltaisen kielen sanojen välisiä suhteita
voidaan selvittää tilastollisesti
● Perusidea on se, että kahta sanaa käytetään
tyypillisesti samaan tapaan (samanlaisessa
lauseyhteydessä), jos niiden merkitykset ja/tai
kieliopillinen rooli on samankaltainen
33. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Klassikkoesimerkki:
Grimmin satujen analyysi (1995)
Honkela, Pulkki & Kohonen 1995
34. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Klassikkoesimerkki:
Grimmin satujen analyysi (1995)
Huom: Suomessa tehtiin
tällaista työtä jo ennen
kuin esimerkiksi
Googlea oli olemassa
Akateemikko Teuvo
Kohonen on ollut
yksi neuroverkko- ja
hahmontunnistusalan
perustajahahmoista
http://www.aka.fi/fi/akatemia/tutkimuksen-tekijoita/tieteen-akateemikot/suomalaiset-tieteen-akateemikot/akateemikko-teuvo-kohonen/
35. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tilastollisesti etsittyjä assosiaatioita
sanoille 1) onnellisuus ja 2) lätäkkö
● mielenrauha
●
tyytyväisyys
●
onnellisuuden
● elämänilo
● yksilöllisyys
●
rakkaus
●
välittäminen
●
onni
● hyvinvointi
●
positiivisuus
● lammikko
●
lampi
●
oja
● läntti
● kuoppa
●
kolo
●
hiekka
●
allas
● pläntti
●
läikkä
http://bionlp-www.utu.fi/wv_demo/Kiitokset: Turku BioNLP group, Filip Ginter ja
Citizen Mindscapes -projekti (Helsinki, Turku) http://blogs.helsinki.fi/citizenmindscapes/
36. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tekstien louhinta
● Edellä kuvatulla tavalla mitä tahansa suuria
data- tai tekstiaineistoja voidaan tutkia
(Honkela&Klami,2008)
37. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Suomen tieteen kartta
Akatemian aineistosta
(Honkela&Klami,2008)
Kemia
Luonnon- ja
insinööritieteet
Bio- ja
ympäristötieteet
Terveystieteet
Kulttuuri- ja
yhteiskunta-
tieteet
Tieteellisiä tekstejä
ei lueta ainoastaan
ihmisvoimin yksi
kerrallaan
Kone auttaa käymään
läpi tuhansia, jopa
miljoonia dokumentteja
38. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Uusi askel:
Humanistinen meta-analyysi
39. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Taustaa: tulkinnan yksilöllisyyden
mallintaminen (GICA-menetelmä)
● GICA-menetelmät (Grounded Intersubjective
Concept Analysis) (Honkela ym. 2012)
mahdollistaa mallit, joissa kunkin sanan
merkitystä tarkastellaan yksilöllisesti
● Esimerkkinä USAn presidenttien puheet
(State of the Union Address) ja sanan
HEALTH merkityksen analyysi kontekstitietoa
tilastollisesti analysoide
41. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Humanistinen meta-analyysi
(Honkela 2016)
Aineisto
sanoineen
Analyysi
olettaen
sanojen
jaettu
merkitys Honkelan
ehdotus
Aineisto
sanoineen
Analyysi hyödyntäen
merkityksien
vaihtelumallia
Merkityksien analyysi
rikkaissa konteksteissa
42. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Humanistinen meta-analyysi
(Honkela 2016)
Aineisto
sanoineen
Analyysi
olettaen
sanojen
jaettu
merkitys Honkelan
ehdotus
Aineisto
sanoineen
Analyysi hyödyntäen
merkityksien
vaihtelumallia
Merkityksien analyysi
rikkaissa konteksteissa
Sanoja ei voi ottaa
analyysin perusdataksi
olettaen, että sana tarkoittaa
täsmälleen samaa, kun
puhuja/ kirjoittaja on eri ja
eri kontekstissa
Sanan merkitys on
tilastollinen, subjektiivinen
ja kontekstiriippuva ilmiö
43. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Humanistinen meta-analyysi
(Honkela 2016)
...
AUTENTTINEN
...
HAUVA
KATTI
KISSA
KOIRA
…
REILU
...
TEHOKAS
...
DATA (1)
RIKAS
MERKITYS-
MALLI
SISÄLTÖ-
ANALYYSI
(HUMANISTINEN
META-ANALYYSI)
DATA (2)
44. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Yhteisen ymmärryksen
uusia mahdollisuuksia
Humanistinen meta-analyysi
ja vastaavat keinot voivat
auttaa meitä tuomaan
yhteen ymmärrystä, jota
ihmiset ovat keränneet eri
kielellisissä, sosiaalisissa,
kulttuurissa ja historiallisissa
konteksteissa
Merkitysneuvotteluiden osittaiseen automatisointi
Tieteen uudet
keinot tilanteisiin
ja kysymyksiin,
joita koskien
yhtä oikeaa
tulkintaa ei ole
eikä voi olla.
45. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Uusi valistuksen aika?
Ratkaisuja maailman
polttaviin ongelmiin
46. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneet eivät ole ihmeidentekijöitä
vaan apuvälineitä
● Koneet eivät voi tarjota objektiivisuutta sen
enempää kuin ihminenkään, kun tarkastelun
kohteena ovat monimutkaiset ja
tulkinnanvaraiset teemat
● Koneiden avulla voidaan kuitenkin kerätä
yhteen ihmisten keräämää tietoa ja kokemusta
ennennäkemättömällä tavalla
● Menetelmät täytyy kehittää humanistisen
ymmärryksen pohjalta
47. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Filosofiaa eivät voi paeta
tietojenkäsittelijätkään
● Uusi valituksen aika?
● Empirismin ja rationalismin vuoropuhelu
● Vuosisataiset filosofiset näkökulmat ja teemat
ovat edelleen tärkeitä ja aina vain tärkeämpiä
koneiden käyttöön liittyen eli kun tekoälyä ja
koneoppimista sovelletaan ihmistieteiden
piirissä
48. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Skenaarioita:
digihumanismin mahdollisuuksia
● Ihmisten välinen parempi ymmärrys ja
vuorovaikutus
– sodan ja rauhan kysymykset
– yhteiskunnallinen päätöksenteko ja politiikka
● Monimutkaisia ilmiöitä koskeva
ongelmanratkaisu:
– esimerkiksi ympäristökysymykset
– terveyttä ja hyvinvointia koskevan tutkimus- ja
kokemustiedon kerääminen ja yhteen tuominen
49. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Kuvalähde: http://digi.kansalliskirjasto.fi/pienpainate/binding/346723?page=1
50. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Kiitos!
http://375humanistia.helsinki.fi/humanistit/timo-honkela
http://www.slideshare.net/timohonkela
https://www.youtube.com/watch?v=UXwkGPMMZdk
51. Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
http://375humanistia.helsinki.fi/humanistit/timo-honkela
http://www.slideshare.net/timohonkela
https://www.youtube.com/watch?v=UXwkGPMMZdk
Avoin data moraaliseksi periaatteksi, kiitos!