2. De tijd dat digitalisering een optie was is voorbij. Het aantal
gebruikers digitaal op afstand overstijgt het aantal fysieke
bezoekers. Daarmee ook de verwachting dat alle stukken
online te raadplegen zijn.
7. V. Hoe lang duurt het om alles te digitaliseren
1 meter = 7.000 scans
Productie = 10.000 scans per week
A. 431 jaar
V. Hoeveel scans levert digitalisering van 32 kilometer archief
A. 224.000.000 scans
8. Hoe kunnen we er voor zorgen dat incidentele en
structurele kosten beheersbaar blijven?
Werkproces
Kwaliteit
19. “Maar dat is toch onbegonnen werk”
“Nou, daar werk ik graag een paar uurtjes voor over meneer
van Ooijen”
20. De kwaliteit van het eindproduct wordt bepaald
door de kwaliteit van het proces
Focus op het proces en niet (alleen) op het eindproduct
Focus op het werkproces en niet (alleen) op de scans
24. H oe?
Werkproces standaardiseren
Alles wat geautomatiseerd kan worden automatiseren
Een nuchtere kijk op kwaliteitsbeheersing
Learning by doing
Continue ontwikkeling
Het gebruiken van wat er al is
Generiek
Zo eenvoudig als mogelijk
25. Vier eisen
1. Geen verlies of (nieuwe) schade aan originelen
2. De reproducties bevatten alle betekenisvolle informatie
3. Alle informatie is gedigitaliseerd, in de oorspronkelijke volgorde
4. De reproducties zijn gekoppeld aan de juiste metadata
26. Vier eisen
1. Geen verlies of (nieuwe) schade aan originelen
2. De reproducties bevatten alle betekenisvolle informatie
3. Alle informatie is gedigitaliseerd, in de originele volgorde
4. De reproducties zijn gekoppeld aan de juiste metadata
27. Strenge normen
Weinig eisen aan hoe de leverancier iets invult
Normen zijn hoog: 0% marges
Bij constatering fout: focus op de achterliggende oorzaak
28.
29. Hoe gaan we het meten?
1. Auditing en evaluatie van het proces
2. Geautomatiseerde controle op scans
3. Beoordeling van productie rapportages
4. Steekproeven
30. Auditing en evaluatie van het proces
Aanbestedingstraject en plan van aanpak
Transparantie
Periodieke evaluatie
58. Wat heeft het tot nu toe opgeleverd?
Kwalitatief hoogwaardige aanbestedingen
Proces is schaalbaar geworden
Prijs per scan bij de leveranciers gehalveerd
Innovatie bij de leveranciers
Aandacht voor alle kwaliteitsaspecten
Met name volledigheid kwalitatief beter
59. Wat zijn aandachtspunten?
De eigen organisatie moet meegenomen worden
Afhankelijkheid van techniek is groot geworden
Tijd nemen voor opleiding en instructie
Niet alle leveranciers zijn innovatief
Spanning tussen digitalisering en beheer / behoud
60. Workshop Gent
Digitalisering fotoarchief
Casus
Opdracht is het digitaal toegankelijk maken van een fotoarchief. Omvang
bedraagt 5.000 negatiefbladen, met ongeveer 24 negatieven per blad
Kosten scannen gemiddeld 1,25 euro per negatief
Budget is 25.000 euro
Doel: optimale toegankelijkheid collecties
Doel: scans breed inzetbaar (onderzoek, publicatie etc_
66. Workshop Gent
Mogelijke oplossingsrichtingen
Casus
Scannen van de bladen (6.250 euro)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
Daarmee volledige collectie digitaal toegankelijk
Als archief aanbieden (inventaris, minimale gegevens)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
(budgettaire ruimte voor 15.000 negatieven)
67. Workshop Gent
Mogelijke oplossingsrichtingen
Casus
Scannen van de bladen (6.250 euro)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
Daarmee volledige collectie digitaal toegankelijk
Als archief aanbieden (inventaris, minimale gegevens)
Selectie negatieven vanaf scans bladen, scanning in hoge kwaliteit
(budgettaire ruimte voor 15.000 negatieven)
Eventueel in scanning on demand setting
68. Workshop Gent
Mogelijke oplossingsrichtingen
Casus
Scannen van de bladen (6.250 euro)
Daarmee volledige collectie digitaal toegankelijk
Knippen negatieven, alles opnemen in een Beeldbank
Beschrijven per beeld
Als archief aanbieden (inventaris, minimale gegevens)
Koppelen aan een scanning on demand dienst
Inzet crowd voor knippen en beschrijven
71. Maar opslag kost toch niks meer?
Price rate: 1 TB, storage in a controlled e-repository
environment on two separate locations, including IT
costs € 3.000
72. Combinatie van 1 en 3 meest gebruikt
Hoge opslagkosten bij grote hoeveelheden bestanden
Kosten voor opslag reduceren door bestandsgrootte klein te houden
Drie opties:
Oplagkosten reduceren
1. Bezuinigen op resolutie (pixels)
3. Gebruik maken van (lossless of lossy) compressie
2. Bezuinigen op bittdiepte / aantal kleuren (TIFF and PNG)
73. Resolutie wordt meestal uitgedrukt in dpi (Dots Per Inch)
Of – eigenlijk beter – PPI (Pixels Per Inch)
ppi zegt dus iets over de informatiedichtheid per lengtemaat
Resolutie
En daarmee iets over de theoretisch haalbare kwaliteit
Maar verder helemaal niets over de objectieve kwaliteit van een scan
Zowel een scanner van € 50,- van de Aldi, als een high-end scanner van
€ 50.000 kunnen op 300 ppi scannen
Maar de kwaliteit van de geproduceerde scan zal duidelijk verschillen
Meten van het detailoplossend vermogen van een scanner kan met behulp van
controlekaartjes waarmee zogenaamde lijnenparen worden gemeten
74. Resolutie is in sterke mate bepalend voor de bestandsgrootte:
Resolutie (A4) Bestandsgrootte
300 ppi 24 Mb
400 ppi 44 Mb
800 ppi 177 Mb
1600 ppi 708 Mb
3200 ppi 2,8 Gb
Resolutie
76. Resolutie
Conclusie: bij 150 ppi: kleine bestanden en meeste tekst nog prima leesbaar
Maar, is het verstandig om hier bij digitaliseren van uit te gaan?
Bij lage resolutie ook lagere structurele beheerkosten. Over enkele jaren
wellicht met betere technologie opnieuw scannen.
Maar minder geschikt voor doelen als hoogwaardige prints / OCR etc
Keuze afhankelijk van doelstellingen, middelen,
aantallen
78. Compressie
Methode waarmee de informatie efficiënter beschreven kan worden
Peer Spel Spel Spel
Spel Peer Peer Spel
Spel Spel Peer Peer
Opslaan: 48 letters
P = Peer
S = Spel Woorden coderenCompressie
Bestandsgrootte neemt af
79. Compressie
P S S S
S P P S
S S P P
Opslaan: 12 letters (plus
coderingstabel
P = Peer
S = Spel
Resultaat
80. Compressie
Twee soorten compressie:
A. Lossless (exact omkeerbaar)
Er gaat geen informatie verloren
Vergelijk het met een kussen waar je alle lucht uitdrukt voor je deze
verpakt. Haal je het kussen uit de verpakking dan wordt het weer
exact het kussen zoals het was voor verpakking.
B. Lossy (niet exact omkeerbaar)
Bepaalde informatie wordt weggegooid
Weer drukken we lucht uit het kussen, maar omdat we een nog
kleinere verpakking willen halen we ook een paar veertjes weg. Dit
hoeft niet erg te zijn, want wellicht geeft het gemis van een paar
veertjes in het gebruik geen oncomfortabeler kussen. Alleen,
weggegooide veertjes zullen ook bij het opnieuw uit de verpakking
halen niet meer worden toegevoegd.
81. Compressie en informatieverlies
Een veelgehoorde stelling:
Lossy compressie niet gebruiken bij opslag van images, want bij
lossy compressie treedt informatieverlies op
Bij lossy compressie treedt inderdaad informatieverlies op, maar dat hoeft niet
per definitie verlies van betekenisvolle informatie te betekenen
Sowieso is beter is om te zeggen: verlies van informatie ten opzichte van het
ongecomprimeerde bestand.
Scanning is namelijk - ten opzichte van het origineel - onlosmakelijk
verbonden met verlies van informatie, ook bij toepassing van lossless
compressie.
83. Compressie en duurzaamheid
Veelgehoorde stelling:
Gecomprimeerde bestanden hebben een grotere kans om corrupt te
raken dan niet gecomprimeerde bestanden. Daarom mag er geen
datacompressie worden toegepast.
Uit onderzoek is gebleken dat deze stelling niet juist is.
Andere oplossingsrichting voor preservering: redundantie in opslag
Juist gecomprimeerde bestanden lenen zich hier goed voor
84. Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
85. Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
86. Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
87. Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
88. Filesize
Format Compression Type Resolution Color Avg 500.000 %
TIFF No --- 300 ppi 24 bits 22,1 Mb 11 Tb 100%
JPEG
Qua (ps) 12 Lossy 300 ppi 24 bits 7,5 Mb 3,7 Tb 34%
Qua (ps) 10 Lossy 300 ppi 24 bits 2,1 Mb 1,1 Tb 10%
Qua (ps) 4 Lossy 200 ppi 24 bits 255 Kb 124 Gb 1,1%
Qua (ps) 10 Lossy 400 ppi 24 bits 3,3 Mb 1,6 Tb 15%
JPEG2000
Part 1 Lossless 300 ppi 24 bits 12 MB 6 Tb 55%
Part 6 Lossy 300 ppi 24 bits 120 Kb 59 Gb 0,5%
89. Prijsvergelijking
Fileformat Storage Costs 1 year Costs 10 years
Tiff uncompressed 11 TB € 33.000 € 330.000
JPEG 10 1,1 TB € 3.300 € 33.000
JPEG 4 (200 ppi) 124 GB € 372 € 3.720
JPEG 2000 (part 1, ll) 6 TB € 18.000 € 180.000
Storage of 1.000.000 images Avg size per scan uncompressed = 22,1 MB
Price rate: 1 TB, storage in a controlled e-repository
environment on two separate locations, including IT
costs € 3.000