SlideShare a Scribd company logo
1 of 90
Grootschalige digitalisering
Seminar Archiefschool Archivistiek voor niet archivarissen
De tijd dat digitalisering een optie was is voorbij. Het aantal
gebruikers digitaal op afstand overstijgt het aantal fysieke
bezoekers. Daarmee ook de verwachting dat alle stukken
online te raadplegen zijn.
Archieven en
collecties
Inventarissen Beeldbank
Genealogie
35%
32%
Overige site
25%
8%
V. Hoe lang duurt het om alles te digitaliseren
1 meter = 7.000 scans
Productie = 10.000 scans per week
A. 431 jaar
V. Hoeveel scans levert digitalisering van 32 kilometer archief
A. 224.000.000 scans
Hoe kunnen we er voor zorgen dat incidentele en
structurele kosten beheersbaar blijven?
Werkproces
Kwaliteit
Digitalisering
?
Digitalisering
?
“Weet jij hoe dit zit, en kun je er voor zorgen dat het stuk retour komt?”
De computer
zegt van niet
Volgens de
computer hebben
we geen foto’s
“Maar dat is toch onbegonnen werk”
“Nou, daar werk ik graag een paar uurtjes voor over meneer
van Ooijen”
De kwaliteit van het eindproduct wordt bepaald
door de kwaliteit van het proces
Focus op het proces en niet (alleen) op het eindproduct
Focus op het werkproces en niet (alleen) op de scans
Geïndustrialiseerd
Grootschalig
Continue productie
Gestandaardiseerd
Schaalbaar
Doel
Een stabiel proces
De uitkomst wordt voorspelbaar
H oe?
Werkproces standaardiseren
Alles wat geautomatiseerd kan worden automatiseren
Een nuchtere kijk op kwaliteitsbeheersing
Learning by doing
Continue ontwikkeling
Het gebruiken van wat er al is
Generiek
Zo eenvoudig als mogelijk
Vier eisen
1. Geen verlies of (nieuwe) schade aan originelen
2. De reproducties bevatten alle betekenisvolle informatie
3. Alle informatie is gedigitaliseerd, in de oorspronkelijke volgorde
4. De reproducties zijn gekoppeld aan de juiste metadata
Vier eisen
1. Geen verlies of (nieuwe) schade aan originelen
2. De reproducties bevatten alle betekenisvolle informatie
3. Alle informatie is gedigitaliseerd, in de originele volgorde
4. De reproducties zijn gekoppeld aan de juiste metadata
Strenge normen
Weinig eisen aan hoe de leverancier iets invult
Normen zijn hoog: 0% marges
Bij constatering fout: focus op de achterliggende oorzaak
Hoe gaan we het meten?
1. Auditing en evaluatie van het proces
2. Geautomatiseerde controle op scans
3. Beoordeling van productie rapportages
4. Steekproeven
Auditing en evaluatie van het proces
Aanbestedingstraject en plan van aanpak
Transparantie
Periodieke evaluatie
Geautomatiseerde controles
Op scans
Bij constatering fout wordt de order verwijderd
En opnieuw geleverd
Voorbeeld scenario scans registreren in beheeromgeving
Selectiebestand Beheersysteem
Eerste 6#: ordernr
Laatste 6#: serienr
Orderbon
Bestandsnaam
Scannen
A20758000001
A20758000002
Bereik
A20758000001 – A20758999999
Archief 195
Inv nr 836
Order: A20758
A20758000004
A20758000005
Scan rapport
A20758000001
A20758000002
A20758000003
A20758000004
A20758000005
12 tekens
Registratie
bestandsnamen
Import
Scripting
Scripting
Scripting
Scripting
Scripting
Scripting
# scans = 365 # scans = 365
Lage kwaliteit telsessie Hoge kwaliteit master files
x 9.000
Productie rapportages
Krachtige manier om overzicht te krijgen op uitvoering
Live of na uitvoering taken
Zowel eigen proces als leverancier
https://docs.google.com/spreadsheets/d/1Ho7lrrbx4s_xm5FYHGSM_64dacT08soDp6
As-qjoKbg/edit?ts=58b5986c#gid=844304387
Steekproeven
Scans: volledigheid, volgorde, croppen
Originelen via schade inventarisatie
Toepassing van AQL principes
Scans: beeldkwaliteit
VOOR NA
Wat heeft het tot nu toe opgeleverd?
Kwalitatief hoogwaardige aanbestedingen
Proces is schaalbaar geworden
Prijs per scan bij de leveranciers gehalveerd
Innovatie bij de leveranciers
Aandacht voor alle kwaliteitsaspecten
Met name volledigheid kwalitatief beter
Wat zijn aandachtspunten?
De eigen organisatie moet meegenomen worden
Afhankelijkheid van techniek is groot geworden
Tijd nemen voor opleiding en instructie
Niet alle leveranciers zijn innovatief
Spanning tussen digitalisering en beheer / behoud
Workshop Gent
Digitalisering fotoarchief
Casus
Opdracht is het digitaal toegankelijk maken van een fotoarchief. Omvang
bedraagt 5.000 negatiefbladen, met ongeveer 24 negatieven per blad
Kosten scannen gemiddeld 1,25 euro per negatief
Budget is 25.000 euro
Doel: optimale toegankelijkheid collecties
Doel: scans breed inzetbaar (onderzoek, publicatie etc_
Workshop Gent
Workshop Gent
Workshop Gent
Workshop Gent
Workshop Gent
Voorbeeld Wubbo de Jong
Workshop Gent
Mogelijke oplossingsrichtingen
Casus
Scannen van de bladen (6.250 euro)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
Daarmee volledige collectie digitaal toegankelijk
Als archief aanbieden (inventaris, minimale gegevens)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
(budgettaire ruimte voor 15.000 negatieven)
Workshop Gent
Mogelijke oplossingsrichtingen
Casus
Scannen van de bladen (6.250 euro)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
Daarmee volledige collectie digitaal toegankelijk
Als archief aanbieden (inventaris, minimale gegevens)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
(budgettaire ruimte voor 15.000 negatieven)
Eventueel in scanning on demand setting
Workshop Gent
Mogelijke oplossingsrichtingen
Casus
Scannen van de bladen (6.250 euro)
Daarmee volledige collectie digitaal toegankelijk
Knippen negatieven, alles opnemen in een Beeldbank
Beschrijven per beeld
Als archief aanbieden (inventaris, minimale gegevens)
Koppelen aan een scanning on demand dienst
Inzet crowd voor knippen en beschrijven
Structurele kosten: opslag
Maar opslag kost toch niks meer?
Price rate: 1 TB, storage in a controlled e-repository
environment on two separate locations, including IT
costs € 3.000
Combinatie van 1 en 3 meest gebruikt
Hoge opslagkosten bij grote hoeveelheden bestanden
Kosten voor opslag reduceren door bestandsgrootte klein te houden
Drie opties:
Oplagkosten reduceren
1. Bezuinigen op resolutie (pixels)
3. Gebruik maken van (lossless of lossy) compressie
2. Bezuinigen op bittdiepte / aantal kleuren (TIFF and PNG)
Resolutie wordt meestal uitgedrukt in dpi (Dots Per Inch)
Of – eigenlijk beter – PPI (Pixels Per Inch)
ppi zegt dus iets over de informatiedichtheid per lengtemaat
Resolutie
En daarmee iets over de theoretisch haalbare kwaliteit
Maar verder helemaal niets over de objectieve kwaliteit van een scan
Zowel een scanner van € 50,- van de Aldi, als een high-end scanner van
€ 50.000 kunnen op 300 ppi scannen
Maar de kwaliteit van de geproduceerde scan zal duidelijk verschillen
Meten van het detailoplossend vermogen van een scanner kan met behulp van
controlekaartjes waarmee zogenaamde lijnenparen worden gemeten
Resolutie is in sterke mate bepalend voor de bestandsgrootte:
Resolutie (A4) Bestandsgrootte
300 ppi 24 Mb
400 ppi 44 Mb
800 ppi 177 Mb
1600 ppi 708 Mb
3200 ppi 2,8 Gb
Resolutie
Resolutie
Voorbeelden
300 ppi
200 ppi
150 ppi
Resolutie
Conclusie: bij 150 ppi: kleine bestanden en meeste tekst nog prima leesbaar
Maar, is het verstandig om hier bij digitaliseren van uit te gaan?
Bij lage resolutie ook lagere structurele beheerkosten. Over enkele jaren
wellicht met betere technologie opnieuw scannen.
Maar minder geschikt voor doelen als hoogwaardige prints / OCR etc
Keuze afhankelijk van doelstellingen, middelen,
aantallen
24 bits (8 bits per
kleurkanaal)
8 bits, grijswaarden
1 bit, zwart-wit
Compressie
Methode waarmee de informatie efficiënter beschreven kan worden
Peer Spel Spel Spel
Spel Peer Peer Spel
Spel Spel Peer Peer
Opslaan: 48 letters
P = Peer
S = Spel Woorden coderenCompressie
Bestandsgrootte neemt af
Compressie
P S S S
S P P S
S S P P
Opslaan: 12 letters (plus
coderingstabel
P = Peer
S = Spel
Resultaat
Compressie
Twee soorten compressie:
A. Lossless (exact omkeerbaar)
Er gaat geen informatie verloren
Vergelijk het met een kussen waar je alle lucht uitdrukt voor je deze
verpakt. Haal je het kussen uit de verpakking dan wordt het weer
exact het kussen zoals het was voor verpakking.
B. Lossy (niet exact omkeerbaar)
Bepaalde informatie wordt weggegooid
Weer drukken we lucht uit het kussen, maar omdat we een nog
kleinere verpakking willen halen we ook een paar veertjes weg. Dit
hoeft niet erg te zijn, want wellicht geeft het gemis van een paar
veertjes in het gebruik geen oncomfortabeler kussen. Alleen,
weggegooide veertjes zullen ook bij het opnieuw uit de verpakking
halen niet meer worden toegevoegd.
Compressie en informatieverlies
Een veelgehoorde stelling:
Lossy compressie niet gebruiken bij opslag van images, want bij
lossy compressie treedt informatieverlies op
Bij lossy compressie treedt inderdaad informatieverlies op, maar dat hoeft niet
per definitie verlies van betekenisvolle informatie te betekenen
Sowieso is beter is om te zeggen: verlies van informatie ten opzichte van het
ongecomprimeerde bestand.
Scanning is namelijk - ten opzichte van het origineel - onlosmakelijk
verbonden met verlies van informatie, ook bij toepassing van lossless
compressie.
Lossy compressie
Voorbeelden
JPEG kwaliteit 12 (300 ppi)
JPEG kwaliteit 10 (300 ppi)
JPEG kwaliteit 4 (300 ppi)
JPEG kwaliteit 4 (200 ppi)
Compressie en duurzaamheid
Veelgehoorde stelling:
Gecomprimeerde bestanden hebben een grotere kans om corrupt te
raken dan niet gecomprimeerde bestanden. Daarom mag er geen
datacompressie worden toegepast.
Uit onderzoek is gebleken dat deze stelling niet juist is.
Andere oplossingsrichting voor preservering: redundantie in opslag
Juist gecomprimeerde bestanden lenen zich hier goed voor
Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
Prijsvergelijking
Fileformat Storage Costs 1 year Costs 10 years
Tiff uncompressed 11 TB € 33.000 € 330.000
JPEG 10 1,1 TB € 3.300 € 33.000
JPEG 4 (200 ppi) 124 GB € 372 € 3.720
JPEG 2000 (part 1, ll) 6 TB € 18.000 € 180.000
Storage of 1.000.000 images Avg size per scan uncompressed = 22,1 MB
Price rate: 1 TB, storage in a controlled e-repository
environment on two separate locations, including IT
costs € 3.000
Prijsvergelijking
Fileformat Opslag 10Y Kosten Scanning
Tiff uncompressed € 330.000
€ 100.000
JPEG 10 € 33.000
Scanning 1 meter archief = € 1.500
1 meter archief = 165 GB TIF / 16,5 GB JPEG 1:10
Scanning 1 meter archief = 7.500 scans

More Related Content

Similar to Seminar archivstiek niet archivarissen

Indica_klantpresentatie
Indica_klantpresentatieIndica_klantpresentatie
Indica_klantpresentatie
Joost Wijma
 
Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...
Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...
Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...
geocurtis
 
eCopy ShareScan verkopen - inleiding
eCopy ShareScan verkopen - inleidingeCopy ShareScan verkopen - inleiding
eCopy ShareScan verkopen - inleiding
service2sales
 
Projectpaas drupaljam 2013 rotterdam
Projectpaas drupaljam 2013 rotterdamProjectpaas drupaljam 2013 rotterdam
Projectpaas drupaljam 2013 rotterdam
Bert Boerland
 

Similar to Seminar archivstiek niet archivarissen (20)

Vervanging en kwaliteitseisen
Vervanging en kwaliteitseisenVervanging en kwaliteitseisen
Vervanging en kwaliteitseisen
 
Digitalisering voor NAi
Digitalisering voor NAiDigitalisering voor NAi
Digitalisering voor NAi
 
Own brand toner brochure be-nl
Own brand toner brochure   be-nlOwn brand toner brochure   be-nl
Own brand toner brochure be-nl
 
Own brand toner brochure be-nl
Own brand toner brochure   be-nlOwn brand toner brochure   be-nl
Own brand toner brochure be-nl
 
Own brand toner brochure nl
Own brand toner brochure   nlOwn brand toner brochure   nl
Own brand toner brochure nl
 
3M
3M3M
3M
 
Eerste hulp bij digitaliseren van erfgoed
Eerste hulp bij digitaliseren van erfgoedEerste hulp bij digitaliseren van erfgoed
Eerste hulp bij digitaliseren van erfgoed
 
Stork Webinar | Digital Twin
Stork Webinar | Digital TwinStork Webinar | Digital Twin
Stork Webinar | Digital Twin
 
Indica_klantpresentatie
Indica_klantpresentatieIndica_klantpresentatie
Indica_klantpresentatie
 
Basisvorming digitaliseren, digitaal bewaren en online publiceren
Basisvorming digitaliseren, digitaal bewaren en online publicerenBasisvorming digitaliseren, digitaal bewaren en online publiceren
Basisvorming digitaliseren, digitaal bewaren en online publiceren
 
Webinar Towards the Digital Factory 2 - Gerlinde Oversluizen
Webinar Towards the Digital Factory 2 - Gerlinde OversluizenWebinar Towards the Digital Factory 2 - Gerlinde Oversluizen
Webinar Towards the Digital Factory 2 - Gerlinde Oversluizen
 
Workshop Handreiking vervanging kort
Workshop Handreiking vervanging kortWorkshop Handreiking vervanging kort
Workshop Handreiking vervanging kort
 
Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...
Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...
Presentatie Digi Atelier 28.09.11 Zeist en 29.09.11 Breukelen-F.Taffijn Micro...
 
eCopy ShareScan verkopen - inleiding
eCopy ShareScan verkopen - inleidingeCopy ShareScan verkopen - inleiding
eCopy ShareScan verkopen - inleiding
 
Ocr Technieken
Ocr TechniekenOcr Technieken
Ocr Technieken
 
Mechatronic System Design
Mechatronic System DesignMechatronic System Design
Mechatronic System Design
 
Projectpaas drupaljam 2013 rotterdam
Projectpaas drupaljam 2013 rotterdamProjectpaas drupaljam 2013 rotterdam
Projectpaas drupaljam 2013 rotterdam
 
Digitaal Toetsen business case TU-Delft
Digitaal Toetsen business case TU-DelftDigitaal Toetsen business case TU-Delft
Digitaal Toetsen business case TU-Delft
 
Pws
PwsPws
Pws
 
Pws
PwsPws
Pws
 

Seminar archivstiek niet archivarissen

  • 1. Grootschalige digitalisering Seminar Archiefschool Archivistiek voor niet archivarissen
  • 2. De tijd dat digitalisering een optie was is voorbij. Het aantal gebruikers digitaal op afstand overstijgt het aantal fysieke bezoekers. Daarmee ook de verwachting dat alle stukken online te raadplegen zijn.
  • 4.
  • 5.
  • 6.
  • 7. V. Hoe lang duurt het om alles te digitaliseren 1 meter = 7.000 scans Productie = 10.000 scans per week A. 431 jaar V. Hoeveel scans levert digitalisering van 32 kilometer archief A. 224.000.000 scans
  • 8. Hoe kunnen we er voor zorgen dat incidentele en structurele kosten beheersbaar blijven? Werkproces Kwaliteit
  • 10.
  • 11.
  • 13. “Weet jij hoe dit zit, en kun je er voor zorgen dat het stuk retour komt?” De computer zegt van niet
  • 14.
  • 16.
  • 17.
  • 18.
  • 19. “Maar dat is toch onbegonnen werk” “Nou, daar werk ik graag een paar uurtjes voor over meneer van Ooijen”
  • 20. De kwaliteit van het eindproduct wordt bepaald door de kwaliteit van het proces Focus op het proces en niet (alleen) op het eindproduct Focus op het werkproces en niet (alleen) op de scans
  • 21.
  • 23. Doel Een stabiel proces De uitkomst wordt voorspelbaar
  • 24. H oe? Werkproces standaardiseren Alles wat geautomatiseerd kan worden automatiseren Een nuchtere kijk op kwaliteitsbeheersing Learning by doing Continue ontwikkeling Het gebruiken van wat er al is Generiek Zo eenvoudig als mogelijk
  • 25. Vier eisen 1. Geen verlies of (nieuwe) schade aan originelen 2. De reproducties bevatten alle betekenisvolle informatie 3. Alle informatie is gedigitaliseerd, in de oorspronkelijke volgorde 4. De reproducties zijn gekoppeld aan de juiste metadata
  • 26. Vier eisen 1. Geen verlies of (nieuwe) schade aan originelen 2. De reproducties bevatten alle betekenisvolle informatie 3. Alle informatie is gedigitaliseerd, in de originele volgorde 4. De reproducties zijn gekoppeld aan de juiste metadata
  • 27. Strenge normen Weinig eisen aan hoe de leverancier iets invult Normen zijn hoog: 0% marges Bij constatering fout: focus op de achterliggende oorzaak
  • 28.
  • 29. Hoe gaan we het meten? 1. Auditing en evaluatie van het proces 2. Geautomatiseerde controle op scans 3. Beoordeling van productie rapportages 4. Steekproeven
  • 30. Auditing en evaluatie van het proces Aanbestedingstraject en plan van aanpak Transparantie Periodieke evaluatie
  • 31.
  • 32.
  • 33.
  • 34. Geautomatiseerde controles Op scans Bij constatering fout wordt de order verwijderd En opnieuw geleverd
  • 35.
  • 36.
  • 37. Voorbeeld scenario scans registreren in beheeromgeving Selectiebestand Beheersysteem Eerste 6#: ordernr Laatste 6#: serienr Orderbon Bestandsnaam Scannen A20758000001 A20758000002 Bereik A20758000001 – A20758999999 Archief 195 Inv nr 836 Order: A20758 A20758000004 A20758000005 Scan rapport A20758000001 A20758000002 A20758000003 A20758000004 A20758000005 12 tekens Registratie bestandsnamen Import Scripting Scripting Scripting Scripting Scripting Scripting
  • 38. # scans = 365 # scans = 365 Lage kwaliteit telsessie Hoge kwaliteit master files x 9.000
  • 39. Productie rapportages Krachtige manier om overzicht te krijgen op uitvoering Live of na uitvoering taken Zowel eigen proces als leverancier
  • 40.
  • 41.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47. Steekproeven Scans: volledigheid, volgorde, croppen Originelen via schade inventarisatie Toepassing van AQL principes Scans: beeldkwaliteit
  • 48.
  • 49.
  • 50.
  • 51.
  • 52.
  • 54.
  • 55.
  • 56.
  • 57.
  • 58. Wat heeft het tot nu toe opgeleverd? Kwalitatief hoogwaardige aanbestedingen Proces is schaalbaar geworden Prijs per scan bij de leveranciers gehalveerd Innovatie bij de leveranciers Aandacht voor alle kwaliteitsaspecten Met name volledigheid kwalitatief beter
  • 59. Wat zijn aandachtspunten? De eigen organisatie moet meegenomen worden Afhankelijkheid van techniek is groot geworden Tijd nemen voor opleiding en instructie Niet alle leveranciers zijn innovatief Spanning tussen digitalisering en beheer / behoud
  • 60. Workshop Gent Digitalisering fotoarchief Casus Opdracht is het digitaal toegankelijk maken van een fotoarchief. Omvang bedraagt 5.000 negatiefbladen, met ongeveer 24 negatieven per blad Kosten scannen gemiddeld 1,25 euro per negatief Budget is 25.000 euro Doel: optimale toegankelijkheid collecties Doel: scans breed inzetbaar (onderzoek, publicatie etc_
  • 66. Workshop Gent Mogelijke oplossingsrichtingen Casus Scannen van de bladen (6.250 euro) Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit Daarmee volledige collectie digitaal toegankelijk Als archief aanbieden (inventaris, minimale gegevens) Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit (budgettaire ruimte voor 15.000 negatieven)
  • 67. Workshop Gent Mogelijke oplossingsrichtingen Casus Scannen van de bladen (6.250 euro) Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit Daarmee volledige collectie digitaal toegankelijk Als archief aanbieden (inventaris, minimale gegevens) Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit (budgettaire ruimte voor 15.000 negatieven) Eventueel in scanning on demand setting
  • 68. Workshop Gent Mogelijke oplossingsrichtingen Casus Scannen van de bladen (6.250 euro) Daarmee volledige collectie digitaal toegankelijk Knippen negatieven, alles opnemen in een Beeldbank Beschrijven per beeld Als archief aanbieden (inventaris, minimale gegevens) Koppelen aan een scanning on demand dienst Inzet crowd voor knippen en beschrijven
  • 69.
  • 71. Maar opslag kost toch niks meer? Price rate: 1 TB, storage in a controlled e-repository environment on two separate locations, including IT costs € 3.000
  • 72. Combinatie van 1 en 3 meest gebruikt Hoge opslagkosten bij grote hoeveelheden bestanden Kosten voor opslag reduceren door bestandsgrootte klein te houden Drie opties: Oplagkosten reduceren 1. Bezuinigen op resolutie (pixels) 3. Gebruik maken van (lossless of lossy) compressie 2. Bezuinigen op bittdiepte / aantal kleuren (TIFF and PNG)
  • 73. Resolutie wordt meestal uitgedrukt in dpi (Dots Per Inch) Of – eigenlijk beter – PPI (Pixels Per Inch) ppi zegt dus iets over de informatiedichtheid per lengtemaat Resolutie En daarmee iets over de theoretisch haalbare kwaliteit Maar verder helemaal niets over de objectieve kwaliteit van een scan Zowel een scanner van € 50,- van de Aldi, als een high-end scanner van € 50.000 kunnen op 300 ppi scannen Maar de kwaliteit van de geproduceerde scan zal duidelijk verschillen Meten van het detailoplossend vermogen van een scanner kan met behulp van controlekaartjes waarmee zogenaamde lijnenparen worden gemeten
  • 74. Resolutie is in sterke mate bepalend voor de bestandsgrootte: Resolutie (A4) Bestandsgrootte 300 ppi 24 Mb 400 ppi 44 Mb 800 ppi 177 Mb 1600 ppi 708 Mb 3200 ppi 2,8 Gb Resolutie
  • 76. Resolutie Conclusie: bij 150 ppi: kleine bestanden en meeste tekst nog prima leesbaar Maar, is het verstandig om hier bij digitaliseren van uit te gaan? Bij lage resolutie ook lagere structurele beheerkosten. Over enkele jaren wellicht met betere technologie opnieuw scannen. Maar minder geschikt voor doelen als hoogwaardige prints / OCR etc Keuze afhankelijk van doelstellingen, middelen, aantallen
  • 77. 24 bits (8 bits per kleurkanaal) 8 bits, grijswaarden 1 bit, zwart-wit
  • 78. Compressie Methode waarmee de informatie efficiënter beschreven kan worden Peer Spel Spel Spel Spel Peer Peer Spel Spel Spel Peer Peer Opslaan: 48 letters P = Peer S = Spel Woorden coderenCompressie Bestandsgrootte neemt af
  • 79. Compressie P S S S S P P S S S P P Opslaan: 12 letters (plus coderingstabel P = Peer S = Spel Resultaat
  • 80. Compressie Twee soorten compressie: A. Lossless (exact omkeerbaar) Er gaat geen informatie verloren Vergelijk het met een kussen waar je alle lucht uitdrukt voor je deze verpakt. Haal je het kussen uit de verpakking dan wordt het weer exact het kussen zoals het was voor verpakking. B. Lossy (niet exact omkeerbaar) Bepaalde informatie wordt weggegooid Weer drukken we lucht uit het kussen, maar omdat we een nog kleinere verpakking willen halen we ook een paar veertjes weg. Dit hoeft niet erg te zijn, want wellicht geeft het gemis van een paar veertjes in het gebruik geen oncomfortabeler kussen. Alleen, weggegooide veertjes zullen ook bij het opnieuw uit de verpakking halen niet meer worden toegevoegd.
  • 81. Compressie en informatieverlies Een veelgehoorde stelling: Lossy compressie niet gebruiken bij opslag van images, want bij lossy compressie treedt informatieverlies op Bij lossy compressie treedt inderdaad informatieverlies op, maar dat hoeft niet per definitie verlies van betekenisvolle informatie te betekenen Sowieso is beter is om te zeggen: verlies van informatie ten opzichte van het ongecomprimeerde bestand. Scanning is namelijk - ten opzichte van het origineel - onlosmakelijk verbonden met verlies van informatie, ook bij toepassing van lossless compressie.
  • 82. Lossy compressie Voorbeelden JPEG kwaliteit 12 (300 ppi) JPEG kwaliteit 10 (300 ppi) JPEG kwaliteit 4 (300 ppi) JPEG kwaliteit 4 (200 ppi)
  • 83. Compressie en duurzaamheid Veelgehoorde stelling: Gecomprimeerde bestanden hebben een grotere kans om corrupt te raken dan niet gecomprimeerde bestanden. Daarom mag er geen datacompressie worden toegepast. Uit onderzoek is gebleken dat deze stelling niet juist is. Andere oplossingsrichting voor preservering: redundantie in opslag Juist gecomprimeerde bestanden lenen zich hier goed voor
  • 84. Filesize Format Compression Type Resolution Color Avg 500.000 % TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100% JPEG Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34% Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10% Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1% Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15% JPEG2000 Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55% Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
  • 85. Filesize Format Compression Type Resolution Color Avg 500.000 % TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100% JPEG Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34% Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10% Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1% Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15% JPEG2000 Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55% Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
  • 86. Filesize Format Compression Type Resolution Color Avg 500.000 % TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100% JPEG Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34% Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10% Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1% Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15% JPEG2000 Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55% Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
  • 87. Filesize Format Compression Type Resolution Color Avg 500.000 % TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100% JPEG Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34% Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10% Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1% Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15% JPEG2000 Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55% Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
  • 88. Filesize Format Compression Type Resolution Color Avg 500.000 % TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100% JPEG Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34% Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10% Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1% Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15% JPEG2000 Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55% Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
  • 89. Prijsvergelijking Fileformat Storage Costs 1 year Costs 10 years Tiff uncompressed 11 TB € 33.000 € 330.000 JPEG 10 1,1 TB € 3.300 € 33.000 JPEG 4 (200 ppi) 124 GB € 372 € 3.720 JPEG 2000 (part 1, ll) 6 TB € 18.000 € 180.000 Storage of 1.000.000 images Avg size per scan uncompressed = 22,1 MB Price rate: 1 TB, storage in a controlled e-repository environment on two separate locations, including IT costs € 3.000
  • 90. Prijsvergelijking Fileformat Opslag 10Y Kosten Scanning Tiff uncompressed € 330.000 € 100.000 JPEG 10 € 33.000 Scanning 1 meter archief = € 1.500 1 meter archief = 165 GB TIF / 16,5 GB JPEG 1:10 Scanning 1 meter archief = 7.500 scans