Getest en vergeleken: digitaliseren met de smartphone (voor OCR)

Als je denkt aan digitaliseren dan denk je meestal meteen aan scannen. Maar met een digitale camera kan ook. Bijna iedereen heeft er wel één op zak: je smartphone. Maar is die smartphone wel goed genoeg?

Ik heb getest wat het effect is van verschillend manieren van digitaliseren, met het oog op een zo goed mogelijk OCR resultaat.

Spoiler, voor wie niet kan wachten: dure digitale camera, goede scanner of 5 jaar oude smartphone, het verrassende resultaat is dat het helemaal niets uitmaakt voor de kwaliteit van de OCR!
Zolang je maar een scherp beeld van de tekst kunt vastleggen met een resolutie die de 300 dpi benadert en de tekst perfect horizontaal staat.

Twee bidprentjes

Voor de test nam ik twee bidprentjes, het ene wat betreft OCR moeilijker (uit 1921) en het ander gemakkelijker (uit 1996).

Paulus Goossens 1850-1921
Berlinde Schelfaut 1953-1996

Welke interessante genealogische informatie je uit een bidprentje kan halen lees je in mijn artikel Haal het maximum aan informatie uit doodsprentjes.

Goede kwaliteit als referentie

Als referentie maken we een foto met een goede digitale camera van 26 MP, een 600 dpi scan met een flatbedscanner en een 300 dpi scan met een documentscanner.

Beelden van 600 dpi zijn overkill als je enkel OCR wil doen. Maar wil je dezelfde scan ook als digitaal archief gebruiken dan kan je overwegen om 600 dpi te nemen, zeker als het bidprentjes met foto zijn.

Lees ook mijn artikel DPI, waarin meer over scanners en camera’s met betrekking tot dpi.

1. Canon EOS RP, full frame, 26.2 MP, 50 mm macro lens

De foto is gemaakt in optimale omstandigheden met een statief en goede tweezijdige 45° belichting met daglichtlampen. De prentjes zijn niet beeldvullend gefotografeerd. Dat geeft een resolutie van ongeveer 790 dpi voor de bijgeknipte afbeelding van het bidprentje.

Canon EOS RP. Ware grootte, ±790 dpi.
Canon EOS RP. Ware grootte, ±790 dpi.

Het nadeel van digitalisering met een camera is dat opkrullende documenten niet platgedrukt worden, zoals met een scanner. Je kan er wel glas overleggen, maar dat vertraagt het digitaliseringsproces. Bovendien zit je met reflecties als je niet oppast.

2. Epson Perfection V550 Photo

Een 600 dpi scan met een stand-alone flatbed scanner.

Epson V550. ware grootte, 600 dpi
Epson V550. ware grootte, 600 dpi

3. Fujitsu fi-6670A, ADF duplex documentscanner

Een 300 dpi scan met een snelle duplex documentscanner met Automatic Document Feeder (ADF). De scans worden automatisch bijgeknipt en rechtgezet. Dit is de kwaliteit die ideaal is voor OCR.

Fujitsu. ware grootte 300 dpi
Fujitsu. ware grootte 300 dpi

En nu met een smartphone

We gaan foto’s nemen van beide prentjes met een iPhone 6s (uit 2015). Die heeft een goede camera met 12 MP en softwarematige beeldstabilisatie.

We maken de foto’s zo veel mogelijk beeldvullend om de hoogste resolutie te bereiken. Dit wil zeggen dat we heel dichtbij moeten komen met de smartphone. Het gevolg daarvan is een kussen-vervorming van het beeld: rechte randen worden licht gebold. Dat is geen groot probleem als het effect beperkt is. Een goede scanner-app kan dat desnoods rechttrekken.

We nemen de foto’s onder 3 verschillende omstandigheden:

  1. Daglicht, op een zonnige dag rond de middag. Komend van een dakraam op het westen, rechtsboven t.o.v. de foto.
  2. Kunstlicht (een ouderwetse gloeilamp) in een verduisterde kamer met nog een klein beetje daglicht. De lamp hangt links van de foto.
  3. Reproductieopstelling van twee CFL daglichtlampen, onder een hoek van 45°. Zowel links als rechts van de foto staat een lamp.

Met opstelling 1 en 2 moet je goed je positie kiezen om geen last te hebben van schaduwen of reflecties.

Zo zien de digitale reproducties eruit:

De eerste twee zijn vd Canon EOS RP, de volgende twee vd Epson scanner, de volgende twee van de Fujitsu documentscanner. Dan 6x iPhone uit de losse hand: 2 daglicht, 2 kunstlicht, 2 reproductielicht. Dan 6x iPhone met statief: daglicht, reproductielicht, kunstlicht en nogmaals deze volgorde.

Je ziet schaduwen, kleurzwemen en vervormingen. Zolang ze de essentiële tekst niet aantasten kan dat niet veel kwaad, zo blijkt.

De beelden zijn zo gebruikt voor OCR, zonder bijknippen of andere correcties.

Enkele details van de iPhone foto’s, links zonder statief, rechts met. Telkens bovenaan daglicht, dan kunstlicht, dan reproductiebelichting:

Links zonder, rechts met statief.

Met statief is toch net iets scherper. De resolutie zit rond 900 dpi.

Bonus: Konica Minolta DiMAGE Z2, 4 MP digicam uit 2004

Met deze oude 4 megapixel camera komen we aan bijgeknipte beelden van ±330 dpi, als het bidprentje zo veel mogelijk beeldvullend is.

Ik nam foto’s uit de losse hand bij de 3 gekende belichtingen. Je hebt met deze camera wel een duidelijke kussenvervorming als je zo dichtbij gaat.

De OCR resultaten

Ik heb OCR uitgevoerd met de IndexScans software. Die gebruikt de prima open-source OCR-engine Tesseract versie 5.

De OCR van de essentiële gegevens (namen, plaatsen, data) van het recentste bidprentje is volledig correct onder alle omstandigheden en met alle toestellen.

De rest van de tekst is ook perfect, soms op een punt of komma na. Behalve bij de iPhone-foto in daglicht zonder statief (met de blauwe tint en schaduw). Zeker in het schaduwgedeelte is de tekst niet scherp genoeg en dat geeft heel slechte OCR. En behalve de iPhone-foto met statief in kunstlicht. Die heeft foutjes in de tekst rechts onderaan, want wat overbelicht en heeft minder contrast.

links perfecte OCR, rechts iPhone-foto in daglicht zonder statief (met de blauwe tint en schaduw)

De OCR van de essentiële gegevens (namen, plaatsen, data) van het oudste prentje zijn grotendeels correct, maar de tekst bevat altijd kleine fouten. Het is in het essentiële gedeelte maar één keer volledig correct. Dat is op de iPhone-foto bij kunstlicht. Maar dat is eerder toeval als we gaan kijken naar wat precies de fouten zijn.

iPhone-foto’s met statief, resp. reproductielicht, kunstlicht, daglicht.

In de volledige tekst gaat het voornamelijk om punten en komma’s, en om de referentie naar Psalm 1 (Ps. 1.).

De OCR-foutjes in de essentiële gegevens zijn klein maar zitten wel in belangrijke woorden om de tekst automatisch te interpreteren:

De onduidelijke druk “van” wordt var, val, vaii, vain, valt.
Door de net iets te korte spatiëring tussen “en van” wordt het soms envan.
De onduidelijke druk van de m in “Hamme” wordt soms Hammie, Hamnie of zelfs Ha.

Gelukkig houdt de IndexScans software rekening met veelvoorkomende OCR-fouten in dergelijke woorden, zodat de automatische indexering wel perfect loopt. Alleen “Hamme” komt er uit zoals de OCR het leest.

Besluit

Aan 300 dpi geraak je gemakkelijk, ook met oude toestellen.

Voor OCR maakt het niet uit met welk toestel je digitaliseert, of je een statief gebruikt of niet, of je de ideale belichting kiest of niet. Zolang je scherpe beelden maakt en de tekst recht staat!

Genoeg licht = scherp
Zeker met oude toestellen betekent een scherp beeld dat je veel licht nodig hebt, zodat de sluitertijd kort genoeg blijft om bewegingsonscherpte te vermijden. Ook te diepe schaduwen zijn nefast.

Statief = scherp
Als je geen vaste hand hebt is een statief zeker nuttig.
En het is efficiënter. Het maakt het gemakkelijker om een hele serie prentjes te digitaliseren. Je zet alles één keer goed, het toestel perfect parallel aan de tafel, zodat je geen trapeziumvervorming hebt.
Je hebt dan je handen vrij om telkens een nieuw prentje te leggen en de foto te nemen.

Als de foto bewogen is gaat de OCR kwaliteit pijlsnel naar beneden. Zie verder.

Als je smartphone of digitale camera een raster van hulplijnen kan tonen op het beeld zet dat dan aan. Dan wordt het des te gemakkelijk om documenten recht uit te lijnen.

Bij scannen is het handig als je scanner of een nabewerkingstool automatisch beelden kan rechtzetten. Met bijgeleverde scannersoftware, NAPS2 open source scanner software (in geavanceerde profielinstellingen kan je aangeven om scans meteen recht te zetten, of achteraf kan ook) of een tool zoals AutoSplitter .

Test met slechte scan

We hebben een licht bewogen en tegelijk een klein beetje scheefstaande foto

Daaruit haalt de OCR enkel dit:

BID VOOR DE ZIEL
PAULUS GOOSSENS
Ludovicus en van Francisca Maes

En dat is voor het volledige prentje!

Als je de tekst rechtdraait wordt het dit:

BID VOOR DE ZIEL
PAULUS GOOSSENS
Beminde Broed
een beter Vaderlan
des He
derzien in den Hemel.
it
Aiju Jezus ! Bermhe
e, druk Odilon E

Een lichte onscherpte maakt de OCR volledig onbruikbaar …

Digitale archivering?

Dit artikel gaat niet over digitale archivering, dat verdient een apart artikel. Maar als je doel naast OCR ook digitale archivering is dan wil je een goede digitale kopie, zonder vervormingen of kleurzwemen, op een resolutie van minstens 300 dpi en liever nog 600 dpi.

Dat kan met een camera en een goede opstelling, maar een scanner blijft toch de gemakkelijkste manier om consistent die kwaliteit te halen.

De foto’s uit mijn collectie zijn in principe niet te koop, maar een ernstig bod kan ik altijd in overweging nemen.

2 gedachten over “Getest en vergeleken: digitaliseren met de smartphone (voor OCR)

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.