Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
1. Università
degli
Studi
di
Milano
-‐
Bicocca
Viale
dell’Innovazione,
10
20126
Milano,
Italia
www.crisp-‐org.it
Roberto Boselli, 3 giugno 2015
2. Linked
Open
Data
DaF
struGuraF DaF
non
struGuraF
Contesto
Big
Data
Web
SemanFc
Business
Intelligence
App,
Mashup,
InformaFon
Systems,
Search
engines
3. Le tecniche
• Informa(on
Extrac(on
per
estrarre
enFtà
da
daF
non
struGuraF
e
classificarli
• Seman(c
Web
per
descrivere
e
collegare
le
enFtà
• Big
Data
Analy(cs
per
analizzare
daF
e
prendere
decisioni
6. Fonti
Selezione
tra
i
più
importanF
si(
di
annunci
di
lavoro:
•
SiF
specializzaF
in
offerte
di
lavoro
(job
boards
e
aggregators)
•
SiF
delle
principali
agenzie
interinali
•
SiF
dei
maggiori
quoFdiani
nazionali
•
Social
networks
7. Web vacancies
• 850000
annunci
di
lavoro
scaricaF
e
analizzaF
• Crawling
da
febbraio
2013
a
aprile
2015
• ContenuF
descriZvi
=
daF
non
struGuraF
8. Indicatori del mercato del lavoro
• Professione
• Tipo
di
contraAo
• SeAore
economico
• Titolo
di
studio
• Località
• Skills
Variabili
interconnesse
a
differenF
livelli
di
complessità
Preziosa
fonte
di
informazione
delle
caraGerisFche
e
delle
dinamiche
del
lavoro
9. Problemi di Information Extraction
Diversi
problemi
emergono
dal
traAare
da(
del
web:
• Informa(on
processing,
text
analysis
TraGare
stringhe
di
testo
richiede
parFcolari
strumenF
e
tecniche
• Eterogeneità
di
classificazione
nei
si(
Ciascun
sito
ha
una
differente
classificazione
• Overlap
tra
si(
Lo
stesso
annuncio
può
essere
pubblicato
in
diversi
siF.
Controllo
dei
duplicaF
• Ripe(zione
degli
annunci
nel
tempo
Controllo
delle
diverse
poliFche
di
pubblicazione
dei
siF
• Iden(ficazione
e
definizione
di
tassonomie
10. Metodologia e strumenti
Da(
non
struAura(
• Web
crawling
• Text
mining
• SMA
StruAura
da(
• Classificazione
• Tassonomia
• RDF
triplestore
Seman(ca
• Ontologia
• Relazioni
semanFche
Linked
Data
• Collegamento
dataset
• Interrogazioni
SPARQL
endpoint
Business
Intelligence
• Analisi
staFsFche
• Visualizzazione
• ReporFsFca
Suite
strumenF
SAS,
R
Open
Calais,
D2RQ
Protege,
LOD
Refine,
SILK
OpenLink
Virtuoso,
Sesame
Pentaho,
Talend,
SemanFc
ETL
11. Web crawling
Scarico
di
daF
non
struGuraF
dal
Web
(via
API)
Esempi:
Tweets
da
TwiGer
Post
da
blog
e
forum
Annunci
da
siF
ricerca
Lavoro
(Infojobs,
Monster
ecc.)
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. …</body>
12. Text Mining (TM)
È
il
processo
di
analisi:
per
estrarre
nuova
e
valida
conoscenza
dispersa
nei
documenF
di
testo
per
dedurre
informazioni
da
daF
non
struGuraF
combinaF
con
variabili
quanFtaFve
UFlizza
tecniche
di
InformaFon
Retrieval
(h-‐idf,
coseno,
clustering,
LSI)
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […]
Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto
iniziale di somministrazione.</body>
13. Social Media Analytics
Tecniche
staFsFche
e
linguisFche
per
monitorare,
ascoltare
e
tracciare
comportamento
utenF
nel
web,
classificare
contenuF
in
tassonomie
Opinion
Mining
SenFment
Analysis
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […]
Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto
iniziale di somministrazione.</body>
Settore
Contratto Titolo di studio
14. Conoscenza
di
dominio
e
sistemi
classificazione
ufficiali
(ISTAT,
ATECO
…)
Aggregazione
di
parole
accomunate
da
un
tema/classe
Organizzazione
gerarchica
termini
Classificazione e tassonomie
ContraZ
PermanenF
ContraZ
Temporanei
Inserimento
Lavoro
autonomo
Lavoro
aFpico
Da
definire
Comunicazioni
Obbligatorie
15. Linguaggio naturale e sistemi di
classificazione
Terminologia
usata
dalle
aziende
per
professioni
e
seGori
Classificazioni
ufficiali
di
professioni
e
seGori
Il
web
può
rappresentare
un
ponte
per
coniugare
i
sistemi
di
classificazione
ed
il
linguaggio
naturale
…
nel
contempo
una
occasione
per
lo
studio
dell’evoluzione
dei
sistemi
classificatori
17. Semantic Web
"The
Seman)c
Web
is
an
extension
of
the
current
web
in
which
informa)on
is
given
well-‐defined
meaning,
be=er
enabling
computers
and
people
to
work
in
coopera)on.”
(Berners-‐Lee,
2001)
Tecniche
e
linguaggi
per
esplicitare
le
relazioni
tra
pagine
web,
e
permeGere
alle
macchine
di
capire
il
significato
delle
informazioni
Da
pagine
di
testo
non
struAurato
a
informazioni
struAurate
Descrizione
metadaF
interpretabili
dai
computer
Creazione
di
nuovi
servizi
e
nuova
conoscenza
19. Perché Linked Open Data?
• Interoperabilità:
il
valore
dei
daF
aumenta
quando
data
set
differenF,
prodoZ
e
pubblicaF
in
modo
indipendente
da
diversi
soggeZ,
possono
essere
incrociaF
liberamente
da
terze
parF
• Valorizzazione
del
patrimonio
informaFvo
pubblico:
rendere
disponibili
e
raggiungibili
i
daF
sul
Web
sia
da
esseri
umani
sia
da
applicazioni
sonware
• I
daF
come
propulsori
economici
per
la
creazione
di
nuove
app
e
servizi,
start
up,
e
posF
di
lavoro
Occorre
avere
un
linguaggio
comune,
una
semanFca,
con
daF
struGuraF
e
chiavi
di
leGura
univoche,
e
un’ontologia
di
dominio
20. LOD: Vantaggi
• Esporre
daF
sul
Web,
non
solo
documenF
• InterconneGere
i
nostri
daF
con
quelli
di
altre
fonF
arricchendone
il
valore
conosciFvo
• I
link
in
entrata
ai
nostri
daF
possono
aumentarne
la
visibilità
• Altri
esseri
umani
e
applicazioni
possono:
• Accedere
ai
nostri
daF
uFlizzando
le
tecnologie
Web
• Seguire
i
link
in
modo
da
oGenere
ulteriori
informazioni
di
contesto
21. La scala di Berners-Lee
Modello
di
catalogazione
dei
daF
1. Una
Stella:
il
livello
base,
cosFtuito
da
file
non
struGuraF:
ad
esempio
un’immagine
in
formato
grezzo
(.gif,
.jpg,
.png),
un
documento
in
formato
Word,
un
file
in
formato
pdf
2. Due
Stelle:
indica
daF
struGuraF
ma
codificaF
con
un
formato
proprietario,
ad
esempio
un
documento
in
formato
Excel
3. Tre
Stelle:
indica
daF
struGuraF
e
codificaF
in
un
formato
non
proprietario,
ad
esempio
il
formato
.csv
(Comma
Separated
Values)
4. QuaAro
Stelle:
indica
daF
struGuraF
e
codificaF
in
un
formato
non
proprietario
che
sono
dotaF
di
un
URI
che
li
rende
indirizzabili
sulla
rete
e
quindi
uFlizzabili
direGamente
online,
aGraverso
l’inclusione
in
una
struGura
basata
sul
modello
RDF
(Resource
DescripFon
Framework)
5. Cinque
Stelle:
indica
quelli
che
vengono
definiF
Linked
Open
Data
(LOD)
21
22. Linked Data, linee guida (5 stelle) 1
Dal
dato
grezzo
al
conceGo
interpretabile
dalle
macchine
• I
daF
idenFficaF
con
indirizzi
Web
(URI)
• UFlizzo
della
semanFca
per
descrivere
daF
aGraverso
conceZ
(formalismi
interpretabili
dalle
macchine)
• Rappresentazione
dei
conceZ
aGraverso
triple
sogge=o
predicato
ogge=o
RDF:
“Università
è
un’is)tuzione,
Università
fa
formazione,
Università
fa
ricerca”
• Le
ontologie
sono
vocabolari
che
spiegano
alle
macchine
il
significato
dei
termini
delle
triple
(Università,
is)tuzione
ecc.)
e
forniscono
le
regole
per
dedurre
nuove
informazioni
23. Linked Data, linee guida (5 stelle) 2
• I
daF
struGuraF
sono
memorizzaF
in
apposiF
triplestore
RDF
interrogabili
via
SPARQL
endpoint
• Link
RDF
per
collegare
informazioni
di
dataset
diversi
• Nel
creare
ontologie
bisogna
riusare
il
più
possibile
termini/
enFtà
di
vocabolari
noF;
creare
nuovi
termini
solo
se
streGamente
necessario
Ontologie
riuFlizzabili
per
descrivere
conceZ:
• Friend-‐of-‐a-‐friend
(FOAF):
per
descrivere
persone
e
relazioni
tra
di
esse
• Dublin
Core
(DC):
standard
metadaF
• Geonames:
per
descrivere
enFtà
geografiche
• Dbpedia:
per
descrivere
conoscenza
presente
in
Wikipedia
• …
(vedremo
altre
nel
corso
della
presentazione)
24. Triple RDF dagli annunci
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […]
Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto
iniziale di somministrazione.</body>
Discount
alimentare
Responsabile
punto
vendita
assume
Grande
distribuzione
opera
Esperienza
avere
3
anni
Diploma
sms
Titolo
di
studio
PC
conoscere
ContraGo
somministrazione
offre
30. Si
oZene
una
nuova
fonte
daF
che
integrata
nei
sistemi
di
Business
Intelligence
permeGe:
Al
ciGadino
e
alle
aziende:
e.g.,
fare
analisi
dello
stato
del
lavoro
nella
regione,
quali
sono
le
qualifiche
richieste,
quali
possono
essere
i
possibili
percorsi
professionalizzanF
ecc.
Al
decisore:
e.g.,
valutare
e
visualizzare
in
modo
immediato
l’efficacia
delle
poliFche
sul
lavoro
e
l’occupazione
Possibili utilizzi