Bidprentjes digitaliseren met het oog op automatische verwerking

Hoe maak je de informatie in je collectie bidprentjes beschikbaar voor jezelf en voor anderen? Met andere woorden, hoe ga je je collectie ontsluiten? Naast indexeren, is digitaliseren het beste wat je kan doen.

Automatische verwerking omvat alles wat een computer je uit handen kan nemen. Je wil, met zo weinig mogelijke menselijke tussenkomst, snel en efficiënt gegevens verzamelen, opslaan, bewerken en verspreiden.

Bidprentjes (doodsprentjes, rouwprentjes) zijn een belangrijke genealogische bron. Welke informatie je er uit kan halen lees je in Haal het maximum aan informatie uit doodsprentjes.

Aandacht hebben voor automatische verwerking heeft al nut op kleine schaal. Al zal de winst op grote schaal veel duidelijker zijn.

Het begint al bij het digitaliseren van de bidprentjes, daarover gaat dit artikel. Wat kan je doen met welk soort scanner of fototoestel? Welke bestandsnamen gebruik je? Welke nabewerking is nodig?

We nemen er meteen de minimumvereisten voor OCROCR of optische karakterherkenning zet een digitale foto van... bij, dat kan eenvoudig gekoppeld worden aan het scannen. OCROCR of optische karakterherkenning zet een digitale foto van... is een essentiële toepassing voor gedrukte tekstdocumenten, en meer en meer ook voor historische handgeschreven documenten (zie Transcribus). In de herkende tekst kan je zoeken met de computer, of er methoden voor informatie-extractie op los laten, zoals automatische indexering. Ik heb daar software voor ontwikkeld, IndexScans, maar dat is voor een volgend artikel.

Scankwaliteit voor OCR

De kwaliteit van de gedigitaliseerde afbeelding is essentieel om een goed OCROCR of optische karakterherkenning zet een digitale foto van... resultaat te bekomen. Je kan een scanner gebruiken, maar evengoed een camera, zelfs een smartphone (zie Getest en vergeleken: digitaliseren met de smartphone (voor OCR)).

Drie voorwaarden waaraan een gedigitaliseerde afbeelding moet voldoen voor goede OCROCR of optische karakterherkenning zet een digitale foto van...:

een scherp beeld, de minste onscherpte verknoeit de herkenning;
de tekst perfect horizontaal zonder vervormingen, een beetje scheef en herkenning loopt slecht;
voldoende gedetailleerd, 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... is perfect, meer mag.

Met een scanner zijn voorwaarden 1 en 3 gemakkelijk vervuld. Scan in kleur op min. 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... en sla de scans op als hoge kwaliteit JPGJPG is een bestandsformaat voor afbeeldingen, het gebruikt e... (+90%). Voorwaarde 2 gaat automatisch of je gebruikt een trucje (zei verder).

Met een camera moet je veel meer moeite doen om de voorwaarden te vervullen.

Bestandsnamen

Je hebt de bestandsnaam voornamelijk nodig om naar de juiste scan te kunnen verwijzen in Excel of in een database.

Voor gemakkelijke geautomatiseerde verwerking is het handigste als elke scan uniek genummerd is op een consequente manier en de bestandsnaam op dat nummer eindigt.

Individueel betekenisvolle bestandsnamen, met naam van de overledene bijvoorbeeld, zijn onnodig. Als je geen tabel of database wil gebruiken kan je dat soort inhoudelijke informatie beter als metadataMetadata beschrijven een "ding", een "gegevensobject". Dat k... in het bestand opslaan. Dan kan je gewoon Windows Verkenner, Finder op een Mac of een fotobeheerprogramma gebruiken om in je collectie te zoeken. Dat komt nog in een ander artikel aan bod.

Unieke nummering

Dat is nodig om ondubbelzinnig naar een scan te kunnen verwijzen. De standaardinstelling voor de bestandsnaam is meestal van de vorm
<prefix><nummer met voorloopnullen>
Dus img_001, Scan0001, SCN0001 of iets dergelijks.
De prefix kan je meestal aanpassen in de instellingen van je scanner of camera, het startnummer kan je soms ook aanpassen.

Dat is in principe een unieke naam, behalve als je scanner opnieuw begint te tellen na 999 (of wat het aantal cijfers ook is) of als je nog andere toestellen gebruikt die dezelfde bestandsnaam gebruiken.

Een eigen prefix gebruiken

Beter zorg je voor een andere prefix die de bestandsnaam zeker uniek maakt. Het zekerste is de huidige datum (jaar-maand-dag sorteert best: 20200623), of zelfs datum+tijdstip. Maar afhankelijk van je werkwijze kan het ook de herkomst of eigenaar van een stapel zijn. Of een combinatie daarvan. Denk er over na, beslis en blijf het dan consequent zo doen.
Je krijgt dan iets zoals 20200623VDB_00001.jpg.

Als je scansoftware dat niet kan en je wil bestandsnamen kiezen, gebruik dan bijvoorbeeld NAPS2 als scansoftware.

Dubbelzijdige scans : extra opletten

1. begin altijd met dezelfde zijde (recto of verso) te digitaliseren voor alle prentjes.
2. zorg dat de recto zijde altijd een even nummer heeft en de verso altijd een oneven (of omgekeerd).

Door die twee regels weet je aan de hand van even of oneven meteen welk zijde het is én welk bestand de bijbehorende andere zijde is. Zo kan je dat ook aan een computer wijsmaken. Maar er zijn ook andere mogelijkheden: lees onderaan Dubbelzijdig digitaliseren.

Achteraf corrigeren?

Je kan de bestandsnamen en nummering achteraf corrigeren met tools voor bulk-bestandshernoeming (zie mijn favoriete tools).
Dat kan ook met scans die je al gemaakt hebt voor je dit artikel las :-) Maar als je het meteen correct doet spaart dat frustratie en extra werk uit.

Digitaliseringsstrategie

Hieronder lees je per type digitaliseringstoestel wat de beste strategie is om tot geschikte scans te komen: de documentscanner, de flatbedscanner en de digitale camera.

Voor concrete scanvoorbeelden en vergelijkingen lees mijn artikel Getest en vergeleken: digitaliseren met de smartphone (voor OCR). Daarin vergelijk ik digitaliseren met een digitale SLR camera, een flatbedscanner, een duplex documentscanner en een smartphone onder verschillende belichtingsomstandigheden.
Conclusie van de test: hoewel de reproductiekwaliteit – hoe mooi de scan eruit ziet – sterk zal verschillen, maakt het weinig uit voor de kwaliteit van de OCROCR of optische karakterherkenning zet een digitale foto van...!
Zolang je maar een scherp beeld van de tekst kunt vastleggen met een resolutie die de 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... benadert en de tekst perfect horizontaal staat.

Een documentscanner is het toppunt van automatisch scannen, snel en efficiënt, geen of heel weinig manuele nabewerking nodig. Het is zeker de beste optie voor grotere collecties en voor dubbelzijdig scannen.
Lees meer over de documentscanner.

Een flatbedscanner hebben veel mensen in huis, apart of in een all-in-one printer. Geschikt voor een beperkte collectie en/of budget. Het vraagt relatief veel werk om te scannen. En, afhankelijk van wat je wil, is nabewerking nodig om de scans optimaal geschikt te maken voor automatische verwerking.
Lees meer over de flatbedscannner.

Een digitale camera heeft iedereen in huis, al was het maar in je smartphone. Zelfs de eenvoudigste digitale camera is, mits de juiste aanpak, geschikt om bidprentjes te digitaliseren met voldoende kwaliteit voor OCROCR of optische karakterherkenning zet een digitale foto van.... Afhankelijk van wat je wil is nabewerking nodig om de scans optimaal geschikt te maken voor automatische informatie-extractie met OCROCR of optische karakterherkenning zet een digitale foto van....
Lees meer over de digitale camera.

Er zijn nog andere soorten toestellen, zoals verschillende soorten mobiele scanners, of boekscanners, maar in de praktijk komen die neer op hetzij een camera hetzij een flatbedscanner met handige extra’s voor de toepassing waarvoor ze bedoeld zijn.

Documentscanner met automatische invoer (ADF, duplex)

Met een goede (tweedehands) duplex documentscanner gaat scannen heel snel.

Let op dat de lade voor automatische documentinvoer (Auto Document Feeder of ADF) smalle documenten aankan (minstens A7 of ‘geschikt voor visitekaartjes’ o.i.d.) en dat je een duplex model hebt als je dubbelzijdig wil scannen.

Je moet er maar een stapeltje inleggen en het wordt in geen tijd dubbelzijdig gescand, bijgesneden, rechtgezet en desgewenst geOCRed. Je zal misschien wel in de instellingen moeten duiken en wat testen om het helemaal te hebben zoals je wil.

Scans worden opeenvolgend genummerd, dus als je alle prentjes met dezelfde zijde boven scant en dat ook consequent doet bij opeenvolgende stapels, dan kan je er van op aan dat bijvoorbeeld even nummers altijd de tekstzijde zijn. Dat is heel belangrijk voor automatische indexering achteraf.

NAPS2, gratis open source scannersoftware, kan een handig hulpmiddel zijn als je scannersoftware niet voldoet.

Flatbedscanner

Bidprentjes op een flatbedscanner leggen is niet meteen de snelste manier, maar voor velen wel de enige praktisch bereikbare. Het vraagt wel veel nabewerking.

Je kan per keer meerdere prentjes scannen, dat is positief. In je scannersoftware kan je scans manueel of soms automatisch opsplitsen in een apart beeld per bidprentje.

De scans moeten perfect recht staan voor goede OCROCR of optische karakterherkenning zet een digitale foto van... resultaten!

AutoSplitter splitst één grote scan in deelbeelden en zet ze recht.

Tenzij je veel manueel selecteer-, knip- en rechtdraaiwerk wil doen, moet je goed nakijken of je scannersoftware dat niet automatisch kan.

Recht scannen

Als je scanner volledig tot tegen de randen scant kan je de prentjes tegen de rand leggen. Dat moet je even testen.

Anders gebruik je een trucje: je legt een lat (of een strip karton) tegen de randen van de scanner. Gebruik geen metaal, anders riskeer je krassen in het scannerglas. Je kan de lat met plakband vastzetten aan de scannerbehuizing, tegen het verschuiven. Dan leg je de prentjes met één zijde tegen de lat. Doe het scannerdeksel voorzichtig dicht zodat ze niet verschuiven. Zo staan ze perfect recht op de scan.

Leg de prentjes nooit tegen elkaar aan, zorg dat er minstens een centimeter tussen zit. Anders maak je het moeilijk om ze achteraf automatisch op te splitsen.

Opsplitsen

In een beeldbewerkingsprogramma (zie mijn favoriete tools) kan je de scan handmatig opsplitsen in een apart bestand voor elk prentje. Je selecteert dan om beurt elk prentje, kopieert de selectie en plakt die als nieuwe afbeelding. Dat is erg omslachtig.

Ofwel gebruik je een tool zoals AutoSplitter. Die scant en splitst de scans automatisch op in deelbeelden én draait ze recht. Dat werkt heel goed, indien nodig kan je de standaardinstellingen bijregelen. Voor betrouwbare autosplits moet je voldoende afstand tussen de prentjes laten. Er een egaal felgekleurd papier opleggen (rood of groen bvb) kan ook helpen. Probeer een paar keer uit om te zien wat voor jouw geval het beste werkt.

Ik gebruik AutoSplitter al sinds 2015 voor foto’s, het heeft mij al heel veel tijd bespaart. Er is ook andere software die dat kan zoals ScanSpeeder en Vuescan, maar die heb ik nooit getest.

Als je Photoshop Elements hebt dan kan je eventueel in Expert-modus de functie “Gescande foto’s verdelen” (Divide scanned photos) uitproberen, maar dat werkt eigenlijk alleen met een witte achtergrond en met foto’s. Met bidprentjes heb ik nog niet veel succes gehad…

Er is ook een plugin voor GIMP als je dat zou gebruiken: DivideScannedImages, die zou beter moeten werken dan de Photoshop functie, maar ik heb het niet getest.

NAPS2 kan scans rechtzetten, maar niet opsplitsen. Dus dan ben je beperkt tot één prentje per scan.

Wil je dubbelzijdig scannen, lees dan zeker ook het stukje over flatbedscanners onderaan dit artikel.

Digitale camera

Doodsprentjes één voor één fotograferen is ook mogelijk, dat kan sneller gaan dan een flatbedscanner.

Nabewerking nodig?

Of nabewerking nodig is hangt af van hoe goed je het doet. Je moet een scherp beeld maken met perfect horizontale niet-vervormde tekst, aan 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ....

Als je camera perfect parallel met de tafel staat, het prentje niet schuin ligt, en de achtergrond egaal is dan zal je weinig nabewerking nodig hebben.

Wat heb je nodig?

Digitale camera, tablet of smartphone: maak je lens vetvrij! Anders krijg je sowieso een wazig beeld.

Uitlijnen

Maak op je camera de hulplijnen (raster of grid) zichtbaar.

Zoek in de handleiding of in de instellingen van je camera. Of google op
<naam van je camera of smartphone> camera raster
voor Nederlandstalige hulp. Gebruik ‘grid’ in plaats van ‘raster’ voor Engelstalige hulp, er is meestal veel meer te vinden in het Engels.

Dat raster helpt om het prentje perfect horizontaal uit te lijnen zodat het niet scheef in beeld staat.

Als je camera ook perfect parallel met de tafel staat heb je geen trapezium-vervorming.

Statief

Uitlijnen is veel gemakkelijker als je een statief gebruikt. Combineer met een vastgekleefde lat om je prentjes tegenaan te leggen. Ideaal is een kartonnen strip in dezelfde kleur als de achtergrond.
Dan hoef je alles maar één keer op te stellen om een hele serie perfect te fotograferen.

Een flexibel ministatief (genre gorillapoot) is ideaal voor een smartphone, daarmee kan je heel dichtbij komen. Een houder/adapter voor smartphones heb je dan ook nodig.
Maar je kan ook zelf een statief improviseren, zoals op deze Pinterest board.

Google DIY overhead smartphone stand voor meer ideeën om zelf een statief te improviseren. DIY staat voor Do It Yourself, doe het zelf. Het is een handige toevoeging als je iets zoekt om zelf ineen te knutselen.

Voor een echte digitale camera zal je eerder een tafelstatief nodig hebben. Je moet de camera loodrecht naar beneden kunnen richten.

Ook met statief moet je heel voorzichtig op de sluiterknop tikken om geen beweging te veroorzaken!
Je hebt ook Bluetooth-afstandsbedieningen voor smartphones. Sommige digitale camera’s kan je op afstand bedienen met een smartphone. Voor een andere mogelijke oplossing zie verder bij scanner apps.

Zonder statief?
Occasioneel kan het perfect, maar voor een hele reeks raad ik het af. Dan heb je de ene keer misschien een scherpe foto en de andere keer een minder scherpe. De ene wat schever of wat meer trapezevormig, enz…
Het is ook veel minder efficiënt dan handenvrij je prentjes één voor één onder de camera op statief te leggen.
Wil je het toch doen dan heb je op zijn minst heel goede beeldstabilisatie nodig (voorzien in je smartphone of camera), een heel vaste hand en het nodige geduld.
Zelfs al zie je het niet meteen met het blote oog, kleine bewegingsonscherpte heeft een groot effect op de OCR-kwaliteit.

Achtergrond

Een egale éénkleurige achtergrond. Ik verkies zwart boven wit, een andere kleur mag ook. Het geeft geen afleiding bij OCROCR of optische karakterherkenning zet een digitale foto van... en verzekert een goed randdetectie bij automatisch bijknippen, als je dat wil gebruiken.

Goede belichting

Vermijd schaduwen en glansplekken op de foto’s. Doe dat niet door je camera schuin te houden. Voor een gelijkmatige belichting gebruik je twee even sterke lampen, één links en één rechts, die onder een hoek van 45° op het bidprentje schijnen. Dan kan je loodrecht boven het prentje dichtbij komen met de camera, zonder schaduwen of glans.

Scanner-app

Een scanner-app die automatisch alles mooi rechtzet en bijknipt kan handig zijn. Probeer er een paar uit om te zien welke best bevalt. Ik schreef 3 jaar geleden over scanner apps, maar ondertussen is er wel wat evolutie.
Er zijn zelfs scanner-apps die automatisch een foto maken als je een nieuw document klaarlegt. Dan kan je helemaal snel werken zonder risico op bewegingsonscherpte door te tikken op de sluiterknop.

Wat met dpi?

Je foto moet minstens equivalent zijn aan de 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... van een scanner. Dat is de resolutie waarop OCROCR of optische karakterherkenning zet een digitale foto van... systemen optimaal werken. Lees er meer over in mijn artikel over DPI bij scanners en camera’s, inclusief praktijkvoorbeelden. Wees gerust, zelfs oude camera’s zijn goed genoeg om een resolutie van 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... te verkrijgen voor een bidprentje.

Tools voor nabewerking

Probeer zo veel mogelijk nabewerking te vermijden door meteen goede foto’s te nemen. Je kan heel veel corrigeren, maar er kruipt veel tijd in en de kwaliteit van de foto kan eronder lijden.

draaien (rotation):
– het document rechtop draaien (90° – 180°)
– de tekstregels perfect horizontaal rechtzetten (enkele graden)
perspectief (perspective/keystone/skew): het document rechthoekig maken
bijknippen (crop): alle achtergrond wegknippen

Hier vertrekken we van een zijdelings schuin getrokken foto van een bidprentje:

Je kan de bekende complexe fotobewerkingstools gebruiken als Photoshop of het gratis Gimp. Alle fotobewerkingstools kunnen draaien en bijknippen, maar ze hebben zelden een handige manier voor perspectiefcorrectie. Gelukkig zijn er heel specifieke gratis tools. Ze werken goed, maar je moet er wat aan wennen:

PerspectiveImageCorrection kan roteren (in sprongen van 90°), perspectief corrigeren en bijknippen. Helaas is het selectiekader, een dun rood lijntje, moeilijk zichtbaar. Voor perspectief klik je rondomrond één voor één op de vier hoeken. Voor bijknippen trek je een rechthoek (eerst in één hoek klikken dan in de diagonaal tegenoverliggende hoek klikken), er is geen preview maar alles in de rechthoek wordt opgeslagen.
Er is ook een mogelijkheid om te kalibreren voor lensvervorming (kusseneffect). Dat kan handig zijn als je daar last van hebt.

YASW is eigenlijk gemaakt voor correcties bij het digitaliseren van boeken. Je kan roteren (in sprongen van 90°), perspectief corrigeren en bijknippen. Er staat een selectiekader klaar in de linker bovenhoek, ook hier een dun rood lijntje. Gewoon de hoeken naar de juiste plaats slepen (vier hoeken voor perspectief, twee voor bijknippen). Als je Preview aanvinkt zie je het resultaat. Vervolgens Export to om op te slaan in een folder.
De illustraties hierboven zijn schermafbeeldingen van deze tool. Ik vind hem net iets handiger dan PerspectiveImageCorrection.

Voor draaien/rechtzetten en bijknippen kan je ook het eerder genoemde AutoSplitter of zijn concurrenten gebruiken. Draaien/rechtzetten kan je ook met de eerdergenoemde scantool NAPS2.

Dubbelzijdig digitaliseren

Recto-verso scannen?

Zelf scan ik altijd dubbelzijdig. Maar of je bidprentjes dubbelzijdig gaat scannen kan van je doel afhangen. Sommige verzamelaars vinden de beeldzijde interessanter. Voor genealogen is de tekstzijde met de genealogische gegevens in principe voldoende. Behalve als er een foto van de overledene op de andere zijde staat, dan wil je die foto ook.

Als “tekstzijde”, of recto, neem ik altijd de zijde waarop de naam en geboorte- en overlijdensdata staan. In sommige gevallen is dat onder een foto, toch wordt dat dan de “tekstzijde”. Want voor automatische indexering wil je vooral weten waar de gegevens staan die je wil indexeren (naam en datums).

Je kan als genealoog opteren om alleen fotobidprentjes recto-verso te scannen. Maak er dan een apart stapeltje van en zet ze in een andere folder dan de eenzijdige. Dat vergemakkelijkt de automatische verwerking achteraf.

Koppeling recto-verso scans

Het probleem voor automatische verwerking is om te onderscheiden

welke scans de tekstzijden zijn en welke de beeldzijden
welke recto bij welke verso hoort

Je zou telkens ‘r’ of ‘v’ of een andere markering aan de bestandsnamen kunnen toevoegen. Maar zelfs met hernoemingssoftware is dat een extra menselijk ingrijpen dat tijd kost en foutgevoelig is. Dat proberen we te vermijden.

Er zijn dan drie mogelijkheden, ofwel elk bidprentje in een aparte PDF scannen, ofwel scannen naar jpgJPG is een bestandsformaat voor afbeeldingen, het gebruikt e... of tif en dan de twee zijden in één bestand zetten of de nummering slim gebruiken.

Een PDF per bidprentje

Dat is meestal niet zo eenvoudig tenzij je elk prentje apart zou inscannen. De meeste scannersoftware kan helaas geen aparte PDF’s maken met recto en verso zijde samen als je er stapeltjes in legt. Er wordt één grote PDF gemaakt met alle scans in.

Je moet dan de grote PDF achteraf splitsen om de twee pagina’s. Daar heb ik een gemakkelijke en gratis oplossing voor. Kijk even op mijn pagina Tools : digitale gereedschapskist.

Het blijft wel nuttig om altijd consequent dezelfde procedure te gebruiken: bijvoorbeeld alle bidprentjes steeds met de tekstzijde naar beneden in de scanner leggen.

Twee zijden in één bestand

Bij sommige scansoftware kan je beide zijden van een dubbelzijdige scan in hetzelfde bestand laten zetten. Afhankelijk van de scannersoftware boven elkaar, naast elkaar of beide.

Dat is ook een goede manier om beide zijden bij elkaar te houden.

Boven elkaar is voor elk formaat aanvaardbaar. Als je kan kiezen is boven elkaar beter voor de moderne brede opengevouwen prentjes, en naast elkaar voor kleine oude enkelvoudige prentjes.

Slim gebruik van nummering

Scanners en camera’s nummeren de bestanden altijd automatisch. Bijvoorbeeld IMG_0230.jpg, IMG_0231.jpg, enz. De getallen lopen gewoon op. Het nummer is dus afwisselend even en oneven.

Voor correcte automatische verwerking moeten recto en verso altijd dezelfde pariteit (even of oneven) hebben. Je beslist zelf of even nummers recto of verso zijn (en bijgevolg oneven nummers de andere zijde). Maar het is essentieel om daar consequent in te zijn. Doe het altijd hetzelfde.

Alle prentjes moeten dus met dezelfde zijde boven gelegd worden. Je scant ook altijd dezelfde zijde eerst voor alle prentjes van je collectie. De tekstzijde of de beeldzijde, dat maakt niet uit. Maar wees consequent anders maakt dat de automatische verwerking later moeilijk.

Noteer je beslissing en bewaar ze bij je collectie.

Nummering instellen?

Nu moet je alleen nog zorgen dat het startnummer in je scanner of camera overeenkomt met je keuze. Dat zou je ergens in de instellingen moeten vinden, zeker bij scanners.

Anders kijk je naar de laatste scan of foto die je maakte of doe eerst een testscan om te zien of het volgende nummer even of oneven gaat zijn. Indien nodig doe je nog een testscan om op de juiste pariteit uit te komen.

Als dat niet kan, of je vindt het te ingewikkeld, dan is dat geen ramp. Je kan achteraf de bestanden in bulk hernoemen (zie verder).

Belangrijker is dat tijdens het scannen/fotograferen de nummers voor beeldzijde/tekstzijde consequent blijven opeenvolgen:

Met een duplex documentscanner is dat geen enkel probleem, alles gaat automatisch, scans worden opeenvolgend genummerd terwijl ze door de ADF gaan.
Een camera nummert ook automatisch opeenvolgend. Let op als er een foto mislukt en je moet ze opnieuw nemen. Dan raakt de nummering in de war. In zo’n geval neem je best twee nieuwe foto’s van dezelfde zijde, dan zit de nummering weer goed wat even en oneven betreft. Achteraf verwijder je dan de mislukte en de dubbele foto.
Als je met een flatbedscanner maar één prentje per keer scant dan is er geen probleem, dan heb je dezelfde situatie als bij de documentscanner en de camera. Maar dat is geen efficiënt gebruik van je flatbedscanner.

De flatbedscanner: een geval apart

Het probleem

Normaal gezien zal je meerdere prentjes per keer scannen. Je krijgt dan één scanbestand met meerdere prentjes.

Als je dubbelzijdig wil scannen met een flatbedscanner moet je telkens de prentjes ter plekke omdraaien op je scanner, zodat ze in dezelfde volgorde blijven.

Vervolgens moet je elke scan opsplitsen in deelbeelden.

En dan kunnen terugvinden welke recto bij welke verso hoort.

Opsplitsen

Hoe je de opsplitsing doet maakt veel uit:

De moeilijke manier:

Je scant bijvoorbeeld 4 doodsprentjes tegelijk. Als je scansoftware het toelaat selecteer je op de preview (voorbeeldscan) elk prentje apart en dan scan je. Je scanner maakt er vier aparte scans van. Je krijgt vier opeenvolgend genummerde bestanden van de beeldzijde (in dit geval met de datum in de bestandsnaam geïntegreerd):

IMG_20200401_0001.jpg
IMG_20200401_0002.jpg
IMG_20200401_0003.jpg
IMG_20200401_0004.jpg

Dan keer je de prentjes ter plekke om en doet hetzelfde met de tekstzijde, de scanner nummert gewoon doorlopend verder:

IMG_20200401_0005.jpg
IMG_20200401_0006.jpg
IMG_20200401_0007.jpg
IMG_20200401_0008.jpg

Hoe kan je dan recto’s en verso’s bij elkaar houden? Als je altijd consequent 4 prentjes per keer scant dan zou het nummer van de verso altijd het nummer van de recto +4 moeten zijn. Duidelijk, maar niet erg handig… Ook erg moeilijk om achteraf te gaan hernoemen zodat je ze wel bij elkaar kan houden. Als je scansoftware zo werkt of met automatische splitsing zo’n resultaat geeft dan doe je dat beter niet.

De “gemakkelijke” manier:

Een ander systeem is eerst volledig scannen en dan opsplitsen (met je scansoftware als dat kan of met een aparte splitstool of met de hand). Elke scan van 4 prentjes wordt dan opgedeeld in 4 aparte bestanden, die opeenvolgend genummerd worden.
Bijvoorbeeld IMG_20200401_0001.jpg opgesplitst in 4 aparte bestanden:

IMG_20200401_0001_01.jpg
IMG_20200401_0001_02.jpg
IMG_20200401_0001_03.jpg
IMG_20200401_0001_04.jpg

Dan keer je de prentjes om, scan de tekstzijde en splitst die:

IMG_20200401_0002_01.jpg
IMG_20200401_0002_02.jpg
IMG_20200401_0002_03.jpg
IMG_20200401_0002_04.jpg

Nu zijn alle recto’s genummerd met scannummer _0001_ en alle verso’s met scannummer _0002_. Volgende scans zullen dan _0003_, _0004_, enz. zijn. Als je consequent bent hebben voortaan alle recto’s een oneven nummer en alle verso’s een even.

Er is één probleem, het scannummer staat in het midden. Aan het einde zou beter zijn, dat is gemakkelijker automatisch te herkennen en te sorteren. Bij AutoSplitter kan je dat zo instellen. De programmeur heeft dat zelfs speciaal op mijn vraag toegevoegd nadat ik het probleem had uitgelegd. Heel goede support bij die software!

Anders is een file renamer nuttig om die bestandsnamen te corrigeren (zie bij Tools). Daarmee zet je in één keer voor alle bestanden tegelijk het nummer van de ‘split’ (_01, _02, _03, _04) vóór het nummer van de scan ipv andersom.

Dat kan met een eenvoudige vervangoperatie met reguliere expressies. Dat is een heel uitgebreide versie van wat je misschien kent als jokertekens of wildcards (* en ?), die je in sommige zoeksystemen en in Windows kunt gebruiken om één of meer letters of cijfers te vervangen in een zoekopdracht. Zie Mijn favoriete tools voor meer over regular expressions.

Vervangen met regular expressions (regex)
In ons voorbeeld hebben we een bestandsnaam van de vorm
IMG_20200401_0001_01.jpg
We willen splitnummer _01 aan het einde omwisselen met scannummer _0001.

Daartoe vervangen (replace) we deze regex
_(\d\d\d\d)_(\d\d)
door
_$2_$1

Wat betekent dat?
\d is de regex-code voor één cijfer, \d\d\d\d staat dus voor 4 cijfers achter elkaar. Het teken _ is gewoon zoals het in de bestandsnaam staat. We gebruiken het om zeker de juiste cijferreeksen te vinden in onze bestandsnaam.
Haakjes ( ) worden gebruikt om groepen te maken die je bij de vervanging kan hergebruiken: $1 is de eerste groep tussen haakjes: (\d\d\d\d), $2 de tweede: (\d\d).

In woorden komt het neer op: vind een reeks tekens die begint met _ gevolgd door 4 cijfers en _ , gevolgd door 2 cijfers. In onze bestandsnaam kan dat alleen slaan op het laatste gedeelte vóór .jpg, dat is de bedoeling. De haakjes bakenen de delen af die we willen omwisselen.

Door bij de vervangtekst simpelweg eerst groep 2 te plaatsen als $2 en dan groep 1 als $1 krijg je een omwisseling van scannummer en splitnummer. De _ tekens moet je er wel nog bijzetten als je die wil behouden in de vervanging, want die staan niet in de groepen. We hadden evengoed de telkens de _ binnen de haakjes kunnen zetten en vervangen door $2$1, met hetzelfde resultaat.
Je krijgt dan
IMG_20200401_01_0001.jpg

Je kan dat meteen voor al je bestanden tegelijk doen. Dit is het resultaat:

IMG_20200401_01_0001.jpg recto van prentje 1
IMG_20200401_02_0001.jpg recto van prentje 2
IMG_20200401_03_0001.jpg recto van prentje 3
IMG_20200401_04_0001.jpg recto van prentje 4
…
IMG_20200401_01_0002.jpg verso van prentje 1
IMG_20200401_02_0002.jpg verso van prentje 2
IMG_20200401_03_0002.jpg verso van prentje 3
IMG_20200401_04_0002.jpg verso van prentje 4

Bij alfabetisch sorteren op bestandsnaam komen zo de recto en verso zijdes van hetzelfde prentje mooi achter elkaar te staan:
IMG_20200401_01_0001.jpg recto van prentje 1
IMG_20200401_01_0002.jpg verso van prentje 1
IMG_20200401_02_0001.jpg recto van prentje 2
IMG_20200401_02_0002.jpg verso van prentje 2
IMG_20200401_03_0001.jpg recto van prentje 3
IMG_20200401_03_0002.jpg verso van prentje 3
IMG_20200401_04_0001.jpg recto van prentje 4
IMG_20200401_04_0002.jpg verso van prentje 4

Alle recto’s hebben een oneven nummer (0001) en alle verso’s een even (0002).

Als je met de hand scans gaat opsplitsen in deelbeelden dan geef je ze natuurlijk meteen een correcte naam. Maar hou dan ook consequent een even of oneven getal aan voor tekst- en beeldzijde (bvb een 1 of een 2 aan het einde van de bestandsnaam).

Zo kan je beide zijden gemakkelijk automatisch uit elkaar houden.

De foto’s uit mijn collectie zijn in principe niet te koop, maar een ernstig bod kan ik altijd in overweging nemen.

Ken je mijn e-book "Oude familiefoto’s dateren en identificeren (1839-1939)" al?

Bidprentjes digitaliseren met het oog op automatische verwerking

Scankwaliteit voor OCR

Bestandsnamen

Unieke nummering

Een eigen prefix gebruiken

Dubbelzijdige scans : extra opletten

Achteraf corrigeren?

Digitaliseringsstrategie

Documentscanner met automatische invoer (ADF, duplex)

Flatbedscanner

Recht scannen

Opsplitsen

Digitale camera

Nabewerking nodig?

Wat heb je nodig?

Uitlijnen

Statief

Achtergrond

Goede belichting

Scanner-app

Wat met dpi?

Tools voor nabewerking

Dubbelzijdig digitaliseren

Recto-verso scannen?

Koppeling recto-verso scans

Een PDF per bidprentje

Twee zijden in één bestand

Slim gebruik van nummering

Nummering instellen?

De flatbedscanner: een geval apart

Het probleem

Opsplitsen

Gerelateerde artikels

Geef een reactie Reactie annuleren

peyck

peter.eyckerman