SlideShare a Scribd company logo
1 of 31
Download to read offline
Università	
  degli	
  Studi	
  di	
  Milano	
  -­‐	
  Bicocca	
  	
  
Viale	
  dell’Innovazione,	
  10	
  
20126	
  Milano,	
  Italia	
  
www.crisp-­‐org.it	
  
Roberto Boselli, 3 giugno 2015
Linked	
  Open	
  Data	
  	
  
DaF	
  struGuraF DaF	
  non	
  struGuraF	
  
Contesto
Big	
  Data	
  	
  
Web	
  
SemanFc	
  	
  
Business	
  Intelligence	
  
App,	
  Mashup,	
  	
  
InformaFon	
  Systems,	
  	
  
Search	
  engines	
  
Le tecniche
•  Informa(on	
  Extrac(on	
  per	
  estrarre	
  enFtà	
  da	
  
daF	
  non	
  struGuraF	
  e	
  classificarli	
  
•  Seman(c	
  Web	
  per	
  descrivere	
  e	
  collegare	
  le	
  
enFtà	
  
•  Big	
  Data	
  Analy(cs	
  per	
  analizzare	
  daF	
  e	
  prendere	
  
decisioni	
  
Dominio: Mercato del Lavoro
Obiettivo
Dato
strutturato
Dato
Semi
strutturato
Non
strutturato
Conoscere
mercato
del lavoro
Social Network
Siti web
Fonti Statistiche
e Amministrative
Fonti
Selezione	
  tra	
  i	
  più	
  importanF	
  
si(	
  di	
  annunci	
  di	
  lavoro:	
  
• 	
  SiF	
  specializzaF	
  in	
  offerte	
  di	
  lavoro	
  (job	
  boards	
  e	
  aggregators)	
  
• 	
  SiF	
  delle	
  principali	
  agenzie	
  interinali	
  
• 	
  SiF	
  dei	
  maggiori	
  quoFdiani	
  nazionali	
  
• 	
  Social	
  networks	
  
Web vacancies
•  850000	
  annunci	
  di	
  lavoro	
  scaricaF	
  e	
  analizzaF	
  
•  Crawling	
  da	
  febbraio	
  2013	
  a	
  aprile	
  2015	
  
•  ContenuF	
  descriZvi	
  =	
  daF	
  non	
  struGuraF	
  
Indicatori del mercato del lavoro
•  Professione	
  
•  Tipo	
  di	
  contraAo	
  
•  SeAore	
  economico	
  
•  Titolo	
  di	
  studio	
  
•  Località	
  
•  Skills	
  
Variabili	
  interconnesse	
  a	
  differenF	
  livelli	
  di	
  complessità	
  
Preziosa	
  fonte	
  di	
  informazione	
  delle	
  caraGerisFche	
  e	
  delle	
  
dinamiche	
  del	
  lavoro	
  
Problemi di Information Extraction
Diversi	
  problemi	
  emergono	
  dal	
  traAare	
  da(	
  del	
  web:	
  
•  Informa(on	
  processing,	
  text	
  analysis	
  
  TraGare	
  stringhe	
  di	
  testo	
  richiede	
  parFcolari	
  strumenF	
  e	
  tecniche	
  
•  Eterogeneità	
  di	
  classificazione	
  nei	
  si(	
  
  Ciascun	
  sito	
  ha	
  una	
  differente	
  classificazione	
  
•  Overlap	
  tra	
  si(	
  
  Lo	
  stesso	
  annuncio	
  può	
  essere	
  pubblicato	
  in	
  diversi	
  siF.	
  Controllo	
  
dei	
  duplicaF	
  
•  Ripe(zione	
  degli	
  annunci	
  nel	
  tempo	
  
  Controllo	
  delle	
  diverse	
  poliFche	
  di	
  pubblicazione	
  dei	
  siF	
  
•  Iden(ficazione	
  e	
  definizione	
  di	
  tassonomie	
  
Metodologia e strumenti
Da(	
  non	
  
struAura(	
  
•  Web	
  
crawling	
  
•  Text	
  mining	
  
•  SMA	
  
StruAura	
  da(	
  
•  Classificazione	
  
•  Tassonomia	
  
•  RDF	
  triplestore	
  
Seman(ca	
  
•  Ontologia	
  
•  Relazioni	
  
semanFche	
  
Linked	
  Data	
  
•  Collegamento	
  
dataset	
  
•  Interrogazioni	
  
SPARQL	
  
endpoint	
  
Business	
  
Intelligence	
  
•  Analisi	
  
staFsFche	
  
•  Visualizzazione	
  
•  ReporFsFca	
  
Suite	
  
strumenF	
  
SAS,	
  
R
Open	
  
Calais,	
  	
  
D2RQ
Protege,	
  
LOD	
  
Refine,	
  
SILK	
  
OpenLink	
  
Virtuoso,	
  
Sesame	
  
Pentaho,	
  
Talend,	
  
SemanFc	
  
ETL	
  
Web crawling
Scarico	
  di	
  daF	
  non	
  struGuraF	
  dal	
  Web	
  (via	
  API)	
  
Esempi:	
  
Tweets	
  da	
  TwiGer	
  
Post	
  da	
  blog	
  e	
  forum	
  
Annunci	
  da	
  siF	
  ricerca	
  Lavoro	
  (Infojobs,	
  Monster	
  ecc.)	
  
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. …</body>
Text Mining (TM)
È	
  il	
  processo	
  di	
  analisi:	
  
per	
  estrarre	
  nuova	
  e	
  valida	
  conoscenza	
  dispersa	
  nei	
  documenF	
  
di	
  testo	
  
per	
  dedurre	
  informazioni	
  da	
  daF	
  non	
  struGuraF	
  combinaF	
  con	
  
variabili	
  quanFtaFve	
  
UFlizza	
  tecniche	
  di	
  InformaFon	
  Retrieval	
  (h-­‐idf,	
  coseno,	
  
clustering,	
  LSI)	
  
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […]
Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto
iniziale di somministrazione.</body>
Social Media Analytics
Tecniche	
  staFsFche	
  e	
  linguisFche	
  per	
  monitorare,	
  
ascoltare	
  e	
  tracciare	
  comportamento	
  utenF	
  nel	
  
web,	
  	
  classificare	
  contenuF	
  in	
  tassonomie	
  
Opinion	
  Mining	
  
SenFment	
  Analysis	
  
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […]
Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto
iniziale di somministrazione.</body>
Settore
Contratto Titolo di studio
Conoscenza	
  di	
  dominio	
  e	
  sistemi	
  classificazione	
  
ufficiali	
  (ISTAT,	
  ATECO	
  …)	
  
Aggregazione	
  di	
  parole	
  accomunate	
  da	
  un	
  tema/classe	
  
Organizzazione	
  gerarchica	
  termini	
  
Classificazione e tassonomie
ContraZ	
  PermanenF	
  
ContraZ	
  Temporanei	
  
Inserimento	
  
Lavoro	
  autonomo	
  
Lavoro	
  aFpico	
  
Da	
  definire	
  	
  
Comunicazioni	
  Obbligatorie	
  
Linguaggio naturale e sistemi di
classificazione
Terminologia	
  usata	
  dalle	
  
aziende	
  per	
  professioni	
  e	
  
seGori	
  
Classificazioni	
  ufficiali	
  di	
  
professioni	
  e	
  seGori	
  
Il	
  web	
  può	
  rappresentare	
  un	
  ponte	
  	
  per	
  coniugare	
  i	
  sistemi	
  di	
  
classificazione	
  ed	
  il	
  linguaggio	
  naturale	
  …	
  nel	
  contempo	
  una	
  occasione	
  
per	
  lo	
  studio	
  dell’evoluzione	
  dei	
  sistemi	
  classificatori	
  
WollyBi
https://www.wollybi.it/
Semantic Web
"The	
  Seman)c	
  Web	
  is	
  an	
  extension	
  of	
  the	
  current	
  web	
  in	
  
which	
  informa)on	
  is	
  given	
  well-­‐defined	
  meaning,	
  be=er	
  
enabling	
  computers	
  and	
  people	
  to	
  work	
  in	
  
coopera)on.”	
  (Berners-­‐Lee,	
  2001)	
  
Tecniche	
  e	
  linguaggi	
  per	
  esplicitare	
  le	
  relazioni	
  tra	
  pagine	
  
web,	
  e	
  permeGere	
  alle	
  macchine	
  di	
  capire	
  il	
  significato	
  
delle	
  informazioni	
  
Da	
  pagine	
  di	
  testo	
  non	
  struAurato	
  a	
  informazioni	
  
struAurate	
  	
  
Descrizione	
  metadaF	
  interpretabili	
  dai	
  computer	
  	
  
Creazione	
  di	
  nuovi	
  servizi	
  e	
  nuova	
  conoscenza	
  
Linked Open Data
Perché Linked Open Data?
•  Interoperabilità:	
  il	
  valore	
  dei	
  daF	
  aumenta	
  quando	
  data	
  set	
  
differenF,	
  prodoZ	
  e	
  pubblicaF	
  in	
  modo	
  indipendente	
  da	
  diversi	
  
soggeZ,	
  possono	
  essere	
  incrociaF	
  liberamente	
  da	
  terze	
  parF	
  
•  Valorizzazione	
  del	
  patrimonio	
  informaFvo	
  pubblico:	
  rendere	
  
disponibili	
  e	
  raggiungibili	
  i	
  daF	
  sul	
  Web	
  sia	
  da	
  esseri	
  umani	
  sia	
  
da	
  applicazioni	
  sonware	
  	
  
•  I	
  daF	
  come	
  propulsori	
  economici	
  per	
  la	
  creazione	
  di	
  nuove	
  app	
  
e	
  servizi,	
  start	
  up,	
  e	
  posF	
  di	
  lavoro	
  
Occorre	
  avere	
  un	
  linguaggio	
  comune,	
  una	
  semanFca,	
  con	
  daF	
  
struGuraF	
  e	
  chiavi	
  di	
  leGura	
  univoche,	
  e	
  un’ontologia	
  di	
  
dominio	
  
LOD: Vantaggi
•  Esporre	
  daF	
  sul	
  Web,	
  non	
  solo	
  documenF	
  
•  InterconneGere	
  i	
  nostri	
  daF	
  con	
  quelli	
  di	
  altre	
  
fonF	
  arricchendone	
  il	
  valore	
  conosciFvo	
  
•  I	
  link	
  in	
  entrata	
  ai	
  nostri	
  daF	
  possono	
  
aumentarne	
  la	
  visibilità	
  
•  Altri	
  esseri	
  umani	
  e	
  applicazioni	
  possono:	
  	
  
•  Accedere	
  ai	
  nostri	
  daF	
  uFlizzando	
  le	
  tecnologie	
  
Web	
  	
  
•  Seguire	
  i	
  link	
  in	
  modo	
  da	
  oGenere	
  ulteriori	
  
informazioni	
  di	
  contesto	
  	
  
La scala di Berners-Lee
Modello	
  di	
  catalogazione	
  dei	
  daF	
  
1.  Una	
  Stella:	
  il	
  livello	
  base,	
  cosFtuito	
  da	
  file	
  non	
  struGuraF:	
  ad	
  esempio	
  
un’immagine	
  in	
  formato	
  grezzo	
  (.gif,	
  .jpg,	
  .png),	
  un	
  documento	
  in	
  formato	
  
Word,	
  un	
  file	
  in	
  formato	
  pdf	
  
2.  Due	
  Stelle:	
  indica	
  daF	
  struGuraF	
  ma	
  codificaF	
  con	
  un	
  formato	
  proprietario,	
  
ad	
  esempio	
  un	
  documento	
  in	
  formato	
  Excel	
  
3.  Tre	
  Stelle:	
  indica	
  daF	
  struGuraF	
  e	
  codificaF	
  in	
  un	
  formato	
  non	
  proprietario,	
  
ad	
  esempio	
  il	
  formato	
  .csv	
  (Comma	
  Separated	
  Values)	
  
4.  QuaAro	
  Stelle:	
  indica	
  daF	
  struGuraF	
  e	
  codificaF	
  in	
  un	
  formato	
  non	
  
proprietario	
  che	
  sono	
  dotaF	
  di	
  un	
  URI	
  che	
  li	
  rende	
  indirizzabili	
  sulla	
  rete	
  e	
  
quindi	
  uFlizzabili	
  direGamente	
  online,	
  aGraverso	
  l’inclusione	
  in	
  una	
  
struGura	
  basata	
  sul	
  modello	
  RDF	
  (Resource	
  DescripFon	
  Framework)	
  
5.  Cinque	
  Stelle:	
  indica	
  quelli	
  che	
  vengono	
  definiF	
  Linked	
  Open	
  Data	
  (LOD)	
  
21
Linked Data, linee guida (5 stelle) 1
Dal	
  dato	
  grezzo	
  al	
  conceGo	
  interpretabile	
  dalle	
  macchine	
  
•  I	
  daF	
  idenFficaF	
  con	
  indirizzi	
  Web	
  (URI)	
  
•  UFlizzo	
  della	
  semanFca	
  per	
  descrivere	
  daF	
  aGraverso	
  
conceZ	
  (formalismi	
  interpretabili	
  dalle	
  macchine)	
  
•  Rappresentazione	
  dei	
  conceZ	
  aGraverso	
  triple	
  sogge=o	
  
predicato	
  ogge=o	
  RDF:	
  “Università	
  è	
  un’is)tuzione,	
  
Università	
  fa	
  formazione,	
  Università	
  fa	
  ricerca”	
  
•  Le	
  ontologie	
  sono	
  vocabolari	
  che	
  spiegano	
  alle	
  macchine	
  il	
  
significato	
  dei	
  termini	
  delle	
  triple	
  (Università,	
  is)tuzione	
  
ecc.)	
  e	
  forniscono	
  le	
  regole	
  per	
  dedurre	
  nuove	
  
informazioni	
  
Linked Data, linee guida (5 stelle) 2
•  I	
  daF	
  struGuraF	
  sono	
  memorizzaF	
  in	
  apposiF	
  triplestore	
  RDF	
  
interrogabili	
  via	
  SPARQL	
  endpoint	
  
•  Link	
  RDF	
  per	
  collegare	
  informazioni	
  di	
  dataset	
  diversi	
  
•  Nel	
  creare	
  ontologie	
  bisogna	
  riusare	
  il	
  più	
  possibile	
  termini/
enFtà	
  di	
  vocabolari	
  noF;	
  creare	
  nuovi	
  termini	
  solo	
  se	
  
streGamente	
  necessario	
  
Ontologie	
  riuFlizzabili	
  per	
  descrivere	
  conceZ:	
  
•  Friend-­‐of-­‐a-­‐friend	
  (FOAF):	
  per	
  descrivere	
  persone	
  e	
  relazioni	
  tra	
  di	
  esse	
  
•  Dublin	
  Core	
  (DC):	
  standard	
  metadaF	
  
•  Geonames:	
  per	
  descrivere	
  enFtà	
  geografiche	
  
•  Dbpedia:	
  per	
  descrivere	
  conoscenza	
  presente	
  in	
  Wikipedia	
  
•  …	
  (vedremo	
  altre	
  nel	
  corso	
  della	
  presentazione)	
  
Triple RDF dagli annunci
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume:
ricerchiamo per azienda cliente operante nel settore della grande distribuzione
( nota catena di discount alimentare) un responsabile supermercato. Il
candidato/a ideale deve avere maturato una pregressa esperienza di almeno
tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […]
Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto
iniziale di somministrazione.</body>
Discount	
  alimentare	
   Responsabile	
  	
  
punto	
  vendita	
  	
  
assume	
  
Grande	
  distribuzione	
  
opera	
  
Esperienza	
  
avere	
   3	
  anni	
  
Diploma	
  sms	
  
Titolo	
  di	
  studio	
  
PC	
  
conoscere	
  
ContraGo	
  	
  
somministrazione	
  
offre	
  
Ontologie in sviluppo
Professione
Contratto
TitoloDiStudio
haTitolo
eAssociatoA
Skill
haSkill
Skill estratte/ESCO/tassonomia
haContratto
SettoreEconomico
Keyword
ISTAT/ESCO/ISCO
Istanze
Stringhe estratte
Tassonomia/EURES
Tassonomia/NACE
Tassonomia/ISCED
skillCrisp.owl
lavoro.owl
SkillOnt.owl
has_experience_level
has_experience_level
Skill-lavoro.owl
Informatici_Telematici
has_skill
belongs belongs
Lavoratori
Professioni
Attività
economiche Aziende
Dataset LOD collegati tra loro
28
Settori econ
Aziende
Professioni
Lavoratori
Persona_1234
Contratto_TD
avvia
Azienda_JBD
Professione_Informatico
nome_qual http://…/Professioni/#Informaticoowl:sameAs
Settore_ICT
èAssociatoA
indirizzo
Milano
Italia
Via
Verdi
…/Professioni/#TecnicoInformatico
èAssociatoA
apertoDa
ha
Quali	
  skill	
  collegate	
  al	
  seGore	
  
economico	
  dell'ICT	
  sono	
  richieste	
  
dalle	
  aziende	
  nella	
  zona	
  di	
  
Milano?	
  	
  
Possibile query su LOD Lavoro
Skill
Ling. Programm.
http://…/Skill/#Java
http://…/Skill/#C++
ha
Java
C++
Si	
  oZene	
  una	
  nuova	
  fonte	
  daF	
  che	
  integrata	
  nei	
  
sistemi	
  di	
  Business	
  Intelligence	
  permeGe:	
  
Al	
  ciGadino	
  e	
  alle	
  aziende:	
  
e.g.,	
  fare	
  analisi	
  dello	
  stato	
  del	
  lavoro	
  nella	
  
regione,	
  quali	
  sono	
  le	
  qualifiche	
  richieste,	
  quali	
  
possono	
  essere	
  i	
  possibili	
  percorsi	
  
professionalizzanF	
  ecc.	
  
Al	
  decisore:	
  
	
  e.g.,	
  valutare	
  e	
  visualizzare	
  in	
  modo	
  immediato	
  
l’efficacia	
  delle	
  poliFche	
  sul	
  lavoro	
  e	
  
l’occupazione	
  
Possibili utilizzi
Grazie!
Domande?	
  
roberto.boselli@unimib.it	
  

More Related Content

Viewers also liked

Halkin Dusmanlari
Halkin DusmanlariHalkin Dusmanlari
Halkin Dusmanlarikaanay
 
Knooppuntcafé Roparun Team 296 Beeld en Geluid
Knooppuntcafé Roparun Team 296 Beeld en GeluidKnooppuntcafé Roparun Team 296 Beeld en Geluid
Knooppuntcafé Roparun Team 296 Beeld en GeluidGeert Wissink
 
09 FóRky Nezamestnany
09  FóRky  Nezamestnany09  FóRky  Nezamestnany
09 FóRky Nezamestnanyjedlickak07
 
Callidus Software Product Installation And Performance Tuning
Callidus Software Product Installation And Performance TuningCallidus Software Product Installation And Performance Tuning
Callidus Software Product Installation And Performance TuningCallidus Software
 
Milieu
MilieuMilieu
Milieutekke
 
Google Earth Business Uses
Google Earth Business UsesGoogle Earth Business Uses
Google Earth Business Usessecuretech13
 
07 ZamyšLení Co MáMe Za PeníZe
07  ZamyšLení  Co MáMe Za PeníZe07  ZamyšLení  Co MáMe Za PeníZe
07 ZamyšLení Co MáMe Za PeníZejedlickak07
 
Food Summary
Food SummaryFood Summary
Food Summarykaireking
 
Putting GRAPHics into geoGRAPHy presentations
Putting GRAPHics into geoGRAPHy presentationsPutting GRAPHics into geoGRAPHy presentations
Putting GRAPHics into geoGRAPHy presentationsAlan Doherty
 
Are You Ready To Upgrade: Readiness Considerations and Lessons Learned
Are You Ready To Upgrade: Readiness Considerations and Lessons LearnedAre You Ready To Upgrade: Readiness Considerations and Lessons Learned
Are You Ready To Upgrade: Readiness Considerations and Lessons LearnedCallidus Software
 
OMG TMI!!!!!!!!111111111111111
OMG TMI!!!!!!!!111111111111111OMG TMI!!!!!!!!111111111111111
OMG TMI!!!!!!!!111111111111111Martha Rotter
 
Le novita informaticogiuridiche del CAD
Le novita informaticogiuridiche del CADLe novita informaticogiuridiche del CAD
Le novita informaticogiuridiche del CADAndrea Rossetti
 
FLL 2007 Trondheim - Program
FLL 2007 Trondheim - ProgramFLL 2007 Trondheim - Program
FLL 2007 Trondheim - ProgramEirik Refsdal
 
Protecting your Microsoft Workloads with High Availability and Reliability
Protecting your Microsoft Workloads with High Availability and ReliabilityProtecting your Microsoft Workloads with High Availability and Reliability
Protecting your Microsoft Workloads with High Availability and ReliabilityAmazon Web Services
 

Viewers also liked (20)

Halkin Dusmanlari
Halkin DusmanlariHalkin Dusmanlari
Halkin Dusmanlari
 
Knooppuntcafé Roparun Team 296 Beeld en Geluid
Knooppuntcafé Roparun Team 296 Beeld en GeluidKnooppuntcafé Roparun Team 296 Beeld en Geluid
Knooppuntcafé Roparun Team 296 Beeld en Geluid
 
09 FóRky Nezamestnany
09  FóRky  Nezamestnany09  FóRky  Nezamestnany
09 FóRky Nezamestnany
 
Callidus Software Product Installation And Performance Tuning
Callidus Software Product Installation And Performance TuningCallidus Software Product Installation And Performance Tuning
Callidus Software Product Installation And Performance Tuning
 
She
SheShe
She
 
Milieu
MilieuMilieu
Milieu
 
Google Earth Business Uses
Google Earth Business UsesGoogle Earth Business Uses
Google Earth Business Uses
 
Bizimkusak
BizimkusakBizimkusak
Bizimkusak
 
07 ZamyšLení Co MáMe Za PeníZe
07  ZamyšLení  Co MáMe Za PeníZe07  ZamyšLení  Co MáMe Za PeníZe
07 ZamyšLení Co MáMe Za PeníZe
 
Food Summary
Food SummaryFood Summary
Food Summary
 
Putting GRAPHics into geoGRAPHy presentations
Putting GRAPHics into geoGRAPHy presentationsPutting GRAPHics into geoGRAPHy presentations
Putting GRAPHics into geoGRAPHy presentations
 
She (Marce Y Pato)
She (Marce Y Pato)She (Marce Y Pato)
She (Marce Y Pato)
 
Video und Web 2.0
Video und Web 2.0Video und Web 2.0
Video und Web 2.0
 
Are You Ready To Upgrade: Readiness Considerations and Lessons Learned
Are You Ready To Upgrade: Readiness Considerations and Lessons LearnedAre You Ready To Upgrade: Readiness Considerations and Lessons Learned
Are You Ready To Upgrade: Readiness Considerations and Lessons Learned
 
Raves
RavesRaves
Raves
 
Internet
InternetInternet
Internet
 
OMG TMI!!!!!!!!111111111111111
OMG TMI!!!!!!!!111111111111111OMG TMI!!!!!!!!111111111111111
OMG TMI!!!!!!!!111111111111111
 
Le novita informaticogiuridiche del CAD
Le novita informaticogiuridiche del CADLe novita informaticogiuridiche del CAD
Le novita informaticogiuridiche del CAD
 
FLL 2007 Trondheim - Program
FLL 2007 Trondheim - ProgramFLL 2007 Trondheim - Program
FLL 2007 Trondheim - Program
 
Protecting your Microsoft Workloads with High Availability and Reliability
Protecting your Microsoft Workloads with High Availability and ReliabilityProtecting your Microsoft Workloads with High Availability and Reliability
Protecting your Microsoft Workloads with High Availability and Reliability
 

Similar to 2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

Il "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaIl "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaGraphRM
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012INPSDG
 
Presentazione Cama_Primiceri_Atro
Presentazione Cama_Primiceri_AtroPresentazione Cama_Primiceri_Atro
Presentazione Cama_Primiceri_AtroBernadetteCama
 
The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)Imola Informatica
 
OpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto RossiOpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto RossiCodemotion
 
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)Matteo Busanelli
 
Il web intelligente
Il web intelligenteIl web intelligente
Il web intelligenteDavide Cerbo
 
Angelo_Bai_Curriculum
Angelo_Bai_CurriculumAngelo_Bai_Curriculum
Angelo_Bai_CurriculumAngelo Bai
 
Evoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di trafficoEvoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di trafficoSQcuola di Blog
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Data Driven Innovation
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18Giuseppe Vizzari
 

Similar to 2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie (20)

Il "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaIl "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
 
DS4Biz - Data Science for Business
DS4Biz - Data Science for BusinessDS4Biz - Data Science for Business
DS4Biz - Data Science for Business
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
 
Presentazione Cama_Primiceri_Atro
Presentazione Cama_Primiceri_AtroPresentazione Cama_Primiceri_Atro
Presentazione Cama_Primiceri_Atro
 
Semantic Search Engine
Semantic Search EngineSemantic Search Engine
Semantic Search Engine
 
The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)
 
9 - Ricercare nel Web
9 - Ricercare nel Web9 - Ricercare nel Web
9 - Ricercare nel Web
 
OpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto RossiOpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto Rossi
 
Enterprise 2.0 Framework
Enterprise 2.0 FrameworkEnterprise 2.0 Framework
Enterprise 2.0 Framework
 
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
 
Il web intelligente
Il web intelligenteIl web intelligente
Il web intelligente
 
Angelo_Bai_Curriculum
Angelo_Bai_CurriculumAngelo_Bai_Curriculum
Angelo_Bai_Curriculum
 
Introduzione alla SEO
Introduzione alla SEOIntroduzione alla SEO
Introduzione alla SEO
 
Evoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di trafficoEvoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di traffico
 
Presentazione sce
Presentazione scePresentazione sce
Presentazione sce
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of data
 
10 - Ricercare nel web II
10 - Ricercare nel web II10 - Ricercare nel web II
10 - Ricercare nel web II
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
SEO Checklist
SEO ChecklistSEO Checklist
SEO Checklist
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 

More from Andrea Rossetti

2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...
2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...
2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...Andrea Rossetti
 
2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...
2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...
2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...Andrea Rossetti
 
Rossetti-Silvi, Ontologia sociale del documento giuridico
Rossetti-Silvi, Ontologia sociale del documento giuridicoRossetti-Silvi, Ontologia sociale del documento giuridico
Rossetti-Silvi, Ontologia sociale del documento giuridicoAndrea Rossetti
 
Marco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentina
Marco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentinaMarco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentina
Marco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentinaAndrea Rossetti
 
Giuseppe Vaciago, Cybercrime, Digital Investigation e Digital Forensics
Giuseppe Vaciago, Cybercrime, Digital Investigation e Digital ForensicsGiuseppe Vaciago, Cybercrime, Digital Investigation e Digital Forensics
Giuseppe Vaciago, Cybercrime, Digital Investigation e Digital ForensicsAndrea Rossetti
 
Marco Vergani, E-commerce: shopping online e tutela del consumatore
 Marco Vergani, E-commerce: shopping online e tutela del consumatore  Marco Vergani, E-commerce: shopping online e tutela del consumatore
Marco Vergani, E-commerce: shopping online e tutela del consumatore Andrea Rossetti
 
Stefano Ricci, Privacy & Cloud Computing
Stefano Ricci, Privacy & Cloud ComputingStefano Ricci, Privacy & Cloud Computing
Stefano Ricci, Privacy & Cloud ComputingAndrea Rossetti
 
Giuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitali
Giuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitaliGiuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitali
Giuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitaliAndrea Rossetti
 
Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...
Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...
Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...Andrea Rossetti
 
Dal checco Dezzani, Digital Evidence Digital Forensics
Dal checco Dezzani, Digital Evidence Digital ForensicsDal checco Dezzani, Digital Evidence Digital Forensics
Dal checco Dezzani, Digital Evidence Digital ForensicsAndrea Rossetti
 
Davide Gabrini, Cloud computing e cloud investigation
Davide Gabrini, Cloud computing e cloud investigationDavide Gabrini, Cloud computing e cloud investigation
Davide Gabrini, Cloud computing e cloud investigationAndrea Rossetti
 
Alessio Pennasilico, Cybercrime e cybersecurity
Alessio Pennasilico, Cybercrime e cybersecurityAlessio Pennasilico, Cybercrime e cybersecurity
Alessio Pennasilico, Cybercrime e cybersecurityAndrea Rossetti
 
Francesca Bosco, Cybercrime e cybersecurity. Profili internazionali
Francesca Bosco, Cybercrime e cybersecurity. Profili internazionaliFrancesca Bosco, Cybercrime e cybersecurity. Profili internazionali
Francesca Bosco, Cybercrime e cybersecurity. Profili internazionaliAndrea Rossetti
 
Sveva Avveduto, Gli italiani nella rete. Un popolo di "naviganti" nella soci...
Sveva Avveduto, Gli italiani nella rete.  Un popolo di "naviganti" nella soci...Sveva Avveduto, Gli italiani nella rete.  Un popolo di "naviganti" nella soci...
Sveva Avveduto, Gli italiani nella rete. Un popolo di "naviganti" nella soci...Andrea Rossetti
 
Gianluigi Viscusi, Libertà e pluralismo dei valori II
Gianluigi Viscusi, Libertà e pluralismo dei valori IIGianluigi Viscusi, Libertà e pluralismo dei valori II
Gianluigi Viscusi, Libertà e pluralismo dei valori IIAndrea Rossetti
 
Gianluigi Viscusi, Libertà e pluralismo dei valori I
Gianluigi Viscusi, Libertà e pluralismo dei valori IGianluigi Viscusi, Libertà e pluralismo dei valori I
Gianluigi Viscusi, Libertà e pluralismo dei valori IAndrea Rossetti
 
Giuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processuali
Giuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processualiGiuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processuali
Giuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processualiAndrea Rossetti
 
Carlo Prisco, Profili giuridici della corrispondenza elettronica
Carlo Prisco, Profili giuridici della corrispondenza elettronicaCarlo Prisco, Profili giuridici della corrispondenza elettronica
Carlo Prisco, Profili giuridici della corrispondenza elettronicaAndrea Rossetti
 
Giuseppe Dezzani, Intercettazioni e VoIP
Giuseppe Dezzani, Intercettazioni e VoIPGiuseppe Dezzani, Intercettazioni e VoIP
Giuseppe Dezzani, Intercettazioni e VoIPAndrea Rossetti
 
Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...
Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...
Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...Andrea Rossetti
 

More from Andrea Rossetti (20)

2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...
2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...
2015-06 Monica Palmirani, L'informazione giuridica nella società della conos...
 
2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...
2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...
2015 06 Stefano Ricci, Trattamento dati personali per finalità di informazio...
 
Rossetti-Silvi, Ontologia sociale del documento giuridico
Rossetti-Silvi, Ontologia sociale del documento giuridicoRossetti-Silvi, Ontologia sociale del documento giuridico
Rossetti-Silvi, Ontologia sociale del documento giuridico
 
Marco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentina
Marco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentinaMarco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentina
Marco Mancarella, eVoting. Dalle esperienze sud-americane a quella salentina
 
Giuseppe Vaciago, Cybercrime, Digital Investigation e Digital Forensics
Giuseppe Vaciago, Cybercrime, Digital Investigation e Digital ForensicsGiuseppe Vaciago, Cybercrime, Digital Investigation e Digital Forensics
Giuseppe Vaciago, Cybercrime, Digital Investigation e Digital Forensics
 
Marco Vergani, E-commerce: shopping online e tutela del consumatore
 Marco Vergani, E-commerce: shopping online e tutela del consumatore  Marco Vergani, E-commerce: shopping online e tutela del consumatore
Marco Vergani, E-commerce: shopping online e tutela del consumatore
 
Stefano Ricci, Privacy & Cloud Computing
Stefano Ricci, Privacy & Cloud ComputingStefano Ricci, Privacy & Cloud Computing
Stefano Ricci, Privacy & Cloud Computing
 
Giuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitali
Giuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitaliGiuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitali
Giuseppe Vaciago, Privacy e cloud computing nelle investigazioni digitali
 
Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...
Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...
Simone Aliprandi, Open source, open content, open data nell'ordinamento itali...
 
Dal checco Dezzani, Digital Evidence Digital Forensics
Dal checco Dezzani, Digital Evidence Digital ForensicsDal checco Dezzani, Digital Evidence Digital Forensics
Dal checco Dezzani, Digital Evidence Digital Forensics
 
Davide Gabrini, Cloud computing e cloud investigation
Davide Gabrini, Cloud computing e cloud investigationDavide Gabrini, Cloud computing e cloud investigation
Davide Gabrini, Cloud computing e cloud investigation
 
Alessio Pennasilico, Cybercrime e cybersecurity
Alessio Pennasilico, Cybercrime e cybersecurityAlessio Pennasilico, Cybercrime e cybersecurity
Alessio Pennasilico, Cybercrime e cybersecurity
 
Francesca Bosco, Cybercrime e cybersecurity. Profili internazionali
Francesca Bosco, Cybercrime e cybersecurity. Profili internazionaliFrancesca Bosco, Cybercrime e cybersecurity. Profili internazionali
Francesca Bosco, Cybercrime e cybersecurity. Profili internazionali
 
Sveva Avveduto, Gli italiani nella rete. Un popolo di "naviganti" nella soci...
Sveva Avveduto, Gli italiani nella rete.  Un popolo di "naviganti" nella soci...Sveva Avveduto, Gli italiani nella rete.  Un popolo di "naviganti" nella soci...
Sveva Avveduto, Gli italiani nella rete. Un popolo di "naviganti" nella soci...
 
Gianluigi Viscusi, Libertà e pluralismo dei valori II
Gianluigi Viscusi, Libertà e pluralismo dei valori IIGianluigi Viscusi, Libertà e pluralismo dei valori II
Gianluigi Viscusi, Libertà e pluralismo dei valori II
 
Gianluigi Viscusi, Libertà e pluralismo dei valori I
Gianluigi Viscusi, Libertà e pluralismo dei valori IGianluigi Viscusi, Libertà e pluralismo dei valori I
Gianluigi Viscusi, Libertà e pluralismo dei valori I
 
Giuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processuali
Giuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processualiGiuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processuali
Giuseppe Vaciago, Digital Forensics: aspetti tecnici e profili processuali
 
Carlo Prisco, Profili giuridici della corrispondenza elettronica
Carlo Prisco, Profili giuridici della corrispondenza elettronicaCarlo Prisco, Profili giuridici della corrispondenza elettronica
Carlo Prisco, Profili giuridici della corrispondenza elettronica
 
Giuseppe Dezzani, Intercettazioni e VoIP
Giuseppe Dezzani, Intercettazioni e VoIPGiuseppe Dezzani, Intercettazioni e VoIP
Giuseppe Dezzani, Intercettazioni e VoIP
 
Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...
Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...
Simone aliprandi, La tutela giuridica dell'opera software e il modello open l...
 

2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

  • 1. Università  degli  Studi  di  Milano  -­‐  Bicocca     Viale  dell’Innovazione,  10   20126  Milano,  Italia   www.crisp-­‐org.it   Roberto Boselli, 3 giugno 2015
  • 2. Linked  Open  Data     DaF  struGuraF DaF  non  struGuraF   Contesto Big  Data     Web   SemanFc     Business  Intelligence   App,  Mashup,     InformaFon  Systems,     Search  engines  
  • 3. Le tecniche •  Informa(on  Extrac(on  per  estrarre  enFtà  da   daF  non  struGuraF  e  classificarli   •  Seman(c  Web  per  descrivere  e  collegare  le   enFtà   •  Big  Data  Analy(cs  per  analizzare  daF  e  prendere   decisioni  
  • 6. Fonti Selezione  tra  i  più  importanF   si(  di  annunci  di  lavoro:   •   SiF  specializzaF  in  offerte  di  lavoro  (job  boards  e  aggregators)   •   SiF  delle  principali  agenzie  interinali   •   SiF  dei  maggiori  quoFdiani  nazionali   •   Social  networks  
  • 7. Web vacancies •  850000  annunci  di  lavoro  scaricaF  e  analizzaF   •  Crawling  da  febbraio  2013  a  aprile  2015   •  ContenuF  descriZvi  =  daF  non  struGuraF  
  • 8. Indicatori del mercato del lavoro •  Professione   •  Tipo  di  contraAo   •  SeAore  economico   •  Titolo  di  studio   •  Località   •  Skills   Variabili  interconnesse  a  differenF  livelli  di  complessità   Preziosa  fonte  di  informazione  delle  caraGerisFche  e  delle   dinamiche  del  lavoro  
  • 9. Problemi di Information Extraction Diversi  problemi  emergono  dal  traAare  da(  del  web:   •  Informa(on  processing,  text  analysis     TraGare  stringhe  di  testo  richiede  parFcolari  strumenF  e  tecniche   •  Eterogeneità  di  classificazione  nei  si(     Ciascun  sito  ha  una  differente  classificazione   •  Overlap  tra  si(     Lo  stesso  annuncio  può  essere  pubblicato  in  diversi  siF.  Controllo   dei  duplicaF   •  Ripe(zione  degli  annunci  nel  tempo     Controllo  delle  diverse  poliFche  di  pubblicazione  dei  siF   •  Iden(ficazione  e  definizione  di  tassonomie  
  • 10. Metodologia e strumenti Da(  non   struAura(   •  Web   crawling   •  Text  mining   •  SMA   StruAura  da(   •  Classificazione   •  Tassonomia   •  RDF  triplestore   Seman(ca   •  Ontologia   •  Relazioni   semanFche   Linked  Data   •  Collegamento   dataset   •  Interrogazioni   SPARQL   endpoint   Business   Intelligence   •  Analisi   staFsFche   •  Visualizzazione   •  ReporFsFca   Suite   strumenF   SAS,   R Open   Calais,     D2RQ Protege,   LOD   Refine,   SILK   OpenLink   Virtuoso,   Sesame   Pentaho,   Talend,   SemanFc   ETL  
  • 11. Web crawling Scarico  di  daF  non  struGuraF  dal  Web  (via  API)   Esempi:   Tweets  da  TwiGer   Post  da  blog  e  forum   Annunci  da  siF  ricerca  Lavoro  (Infojobs,  Monster  ecc.)   <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. …</body>
  • 12. Text Mining (TM) È  il  processo  di  analisi:   per  estrarre  nuova  e  valida  conoscenza  dispersa  nei  documenF   di  testo   per  dedurre  informazioni  da  daF  non  struGuraF  combinaF  con   variabili  quanFtaFve   UFlizza  tecniche  di  InformaFon  Retrieval  (h-­‐idf,  coseno,   clustering,  LSI)   <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>
  • 13. Social Media Analytics Tecniche  staFsFche  e  linguisFche  per  monitorare,   ascoltare  e  tracciare  comportamento  utenF  nel   web,    classificare  contenuF  in  tassonomie   Opinion  Mining   SenFment  Analysis   <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body> Settore Contratto Titolo di studio
  • 14. Conoscenza  di  dominio  e  sistemi  classificazione   ufficiali  (ISTAT,  ATECO  …)   Aggregazione  di  parole  accomunate  da  un  tema/classe   Organizzazione  gerarchica  termini   Classificazione e tassonomie ContraZ  PermanenF   ContraZ  Temporanei   Inserimento   Lavoro  autonomo   Lavoro  aFpico   Da  definire     Comunicazioni  Obbligatorie  
  • 15. Linguaggio naturale e sistemi di classificazione Terminologia  usata  dalle   aziende  per  professioni  e   seGori   Classificazioni  ufficiali  di   professioni  e  seGori   Il  web  può  rappresentare  un  ponte    per  coniugare  i  sistemi  di   classificazione  ed  il  linguaggio  naturale  …  nel  contempo  una  occasione   per  lo  studio  dell’evoluzione  dei  sistemi  classificatori  
  • 17. Semantic Web "The  Seman)c  Web  is  an  extension  of  the  current  web  in   which  informa)on  is  given  well-­‐defined  meaning,  be=er   enabling  computers  and  people  to  work  in   coopera)on.”  (Berners-­‐Lee,  2001)   Tecniche  e  linguaggi  per  esplicitare  le  relazioni  tra  pagine   web,  e  permeGere  alle  macchine  di  capire  il  significato   delle  informazioni   Da  pagine  di  testo  non  struAurato  a  informazioni   struAurate     Descrizione  metadaF  interpretabili  dai  computer     Creazione  di  nuovi  servizi  e  nuova  conoscenza  
  • 19. Perché Linked Open Data? •  Interoperabilità:  il  valore  dei  daF  aumenta  quando  data  set   differenF,  prodoZ  e  pubblicaF  in  modo  indipendente  da  diversi   soggeZ,  possono  essere  incrociaF  liberamente  da  terze  parF   •  Valorizzazione  del  patrimonio  informaFvo  pubblico:  rendere   disponibili  e  raggiungibili  i  daF  sul  Web  sia  da  esseri  umani  sia   da  applicazioni  sonware     •  I  daF  come  propulsori  economici  per  la  creazione  di  nuove  app   e  servizi,  start  up,  e  posF  di  lavoro   Occorre  avere  un  linguaggio  comune,  una  semanFca,  con  daF   struGuraF  e  chiavi  di  leGura  univoche,  e  un’ontologia  di   dominio  
  • 20. LOD: Vantaggi •  Esporre  daF  sul  Web,  non  solo  documenF   •  InterconneGere  i  nostri  daF  con  quelli  di  altre   fonF  arricchendone  il  valore  conosciFvo   •  I  link  in  entrata  ai  nostri  daF  possono   aumentarne  la  visibilità   •  Altri  esseri  umani  e  applicazioni  possono:     •  Accedere  ai  nostri  daF  uFlizzando  le  tecnologie   Web     •  Seguire  i  link  in  modo  da  oGenere  ulteriori   informazioni  di  contesto    
  • 21. La scala di Berners-Lee Modello  di  catalogazione  dei  daF   1.  Una  Stella:  il  livello  base,  cosFtuito  da  file  non  struGuraF:  ad  esempio   un’immagine  in  formato  grezzo  (.gif,  .jpg,  .png),  un  documento  in  formato   Word,  un  file  in  formato  pdf   2.  Due  Stelle:  indica  daF  struGuraF  ma  codificaF  con  un  formato  proprietario,   ad  esempio  un  documento  in  formato  Excel   3.  Tre  Stelle:  indica  daF  struGuraF  e  codificaF  in  un  formato  non  proprietario,   ad  esempio  il  formato  .csv  (Comma  Separated  Values)   4.  QuaAro  Stelle:  indica  daF  struGuraF  e  codificaF  in  un  formato  non   proprietario  che  sono  dotaF  di  un  URI  che  li  rende  indirizzabili  sulla  rete  e   quindi  uFlizzabili  direGamente  online,  aGraverso  l’inclusione  in  una   struGura  basata  sul  modello  RDF  (Resource  DescripFon  Framework)   5.  Cinque  Stelle:  indica  quelli  che  vengono  definiF  Linked  Open  Data  (LOD)   21
  • 22. Linked Data, linee guida (5 stelle) 1 Dal  dato  grezzo  al  conceGo  interpretabile  dalle  macchine   •  I  daF  idenFficaF  con  indirizzi  Web  (URI)   •  UFlizzo  della  semanFca  per  descrivere  daF  aGraverso   conceZ  (formalismi  interpretabili  dalle  macchine)   •  Rappresentazione  dei  conceZ  aGraverso  triple  sogge=o   predicato  ogge=o  RDF:  “Università  è  un’is)tuzione,   Università  fa  formazione,  Università  fa  ricerca”   •  Le  ontologie  sono  vocabolari  che  spiegano  alle  macchine  il   significato  dei  termini  delle  triple  (Università,  is)tuzione   ecc.)  e  forniscono  le  regole  per  dedurre  nuove   informazioni  
  • 23. Linked Data, linee guida (5 stelle) 2 •  I  daF  struGuraF  sono  memorizzaF  in  apposiF  triplestore  RDF   interrogabili  via  SPARQL  endpoint   •  Link  RDF  per  collegare  informazioni  di  dataset  diversi   •  Nel  creare  ontologie  bisogna  riusare  il  più  possibile  termini/ enFtà  di  vocabolari  noF;  creare  nuovi  termini  solo  se   streGamente  necessario   Ontologie  riuFlizzabili  per  descrivere  conceZ:   •  Friend-­‐of-­‐a-­‐friend  (FOAF):  per  descrivere  persone  e  relazioni  tra  di  esse   •  Dublin  Core  (DC):  standard  metadaF   •  Geonames:  per  descrivere  enFtà  geografiche   •  Dbpedia:  per  descrivere  conoscenza  presente  in  Wikipedia   •  …  (vedremo  altre  nel  corso  della  presentazione)  
  • 24. Triple RDF dagli annunci <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body> Discount  alimentare   Responsabile     punto  vendita     assume   Grande  distribuzione   opera   Esperienza   avere   3  anni   Diploma  sms   Titolo  di  studio   PC   conoscere   ContraGo     somministrazione   offre  
  • 25. Ontologie in sviluppo Professione Contratto TitoloDiStudio haTitolo eAssociatoA Skill haSkill Skill estratte/ESCO/tassonomia haContratto SettoreEconomico Keyword ISTAT/ESCO/ISCO Istanze Stringhe estratte Tassonomia/EURES Tassonomia/NACE Tassonomia/ISCED skillCrisp.owl lavoro.owl
  • 29. Settori econ Aziende Professioni Lavoratori Persona_1234 Contratto_TD avvia Azienda_JBD Professione_Informatico nome_qual http://…/Professioni/#Informaticoowl:sameAs Settore_ICT èAssociatoA indirizzo Milano Italia Via Verdi …/Professioni/#TecnicoInformatico èAssociatoA apertoDa ha Quali  skill  collegate  al  seGore   economico  dell'ICT  sono  richieste   dalle  aziende  nella  zona  di   Milano?     Possibile query su LOD Lavoro Skill Ling. Programm. http://…/Skill/#Java http://…/Skill/#C++ ha Java C++
  • 30. Si  oZene  una  nuova  fonte  daF  che  integrata  nei   sistemi  di  Business  Intelligence  permeGe:   Al  ciGadino  e  alle  aziende:   e.g.,  fare  analisi  dello  stato  del  lavoro  nella   regione,  quali  sono  le  qualifiche  richieste,  quali   possono  essere  i  possibili  percorsi   professionalizzanF  ecc.   Al  decisore:    e.g.,  valutare  e  visualizzare  in  modo  immediato   l’efficacia  delle  poliFche  sul  lavoro  e   l’occupazione   Possibili utilizzi