Als je denkt aan digitaliseren dan denk je meestal meteen aan scannen. Maar met een digitale camera kan ook. Bijna iedereen heeft er wel één op zak: je smartphone. Maar is die smartphone wel goed genoeg?
Ik heb getest wat het effect is van verschillend manieren van digitaliseren, met het oog op een zo goed mogelijk OCROCR of optische karakterherkenning zet een digitale foto van... resultaat.
Spoiler, voor wie niet kan wachten: dure digitale camera, goede scanner of 5 jaar oude smartphone, het verrassende resultaat is dat het helemaal niets uitmaakt voor de kwaliteit van de OCROCR of optische karakterherkenning zet een digitale foto van...!
Zolang je maar een scherp beeld van de tekst kunt vastleggen met een resolutie die de 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... benadert en de tekst perfect horizontaal staat.
Twee bidprentjes
Voor de test nam ik twee bidprentjes, het ene wat betreft OCROCR of optische karakterherkenning zet een digitale foto van... moeilijker (uit 1921) en het ander gemakkelijker (uit 1996).
Welke interessante genealogische informatie je uit een bidprentje kan halen lees je in mijn artikel Haal het maximum aan informatie uit doodsprentjes.
Goede kwaliteit als referentie
Als referentie maken we een foto met een goede digitale camera van 26 MP, een 600 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... scan met een flatbedscanner en een 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... scan met een documentscanner.
Beelden van 600 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... zijn overkill als je enkel OCROCR of optische karakterherkenning zet een digitale foto van... wil doen. Maar wil je dezelfde scan ook als digitaal archief gebruiken dan kan je overwegen om 600 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... te nemen, zeker als het bidprentjes met foto zijn.
Lees ook mijn artikel DPI, waarin meer over scanners en camera’s met betrekking tot dpi.
1. Canon EOS RP, full frame, 26.2 MP, 50 mm macro lens
De foto is gemaakt in optimale omstandigheden met een statief en goede tweezijdige 45° belichting met daglichtlampen. De prentjes zijn niet beeldvullend gefotografeerd. Dat geeft een resolutie van ongeveer 790 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... voor de bijgeknipte afbeelding van het bidprentje.
Het nadeel van digitalisering met een camera is dat opkrullende documenten niet platgedrukt worden, zoals met een scanner. Je kan er wel glas overleggen, maar dat vertraagt het digitaliseringsproces. Bovendien zit je met reflecties als je niet oppast.
2. Epson Perfection V550 Photo
Een 600 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... scan met een stand-alone flatbed scanner.
3. Fujitsu fi-6670A, ADF duplex documentscanner
Een 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... scan met een snelle duplex documentscanner met Automatic Document Feeder (ADF). De scans worden automatisch bijgeknipt en rechtgezet. Dit is de kwaliteit die ideaal is voor OCROCR of optische karakterherkenning zet een digitale foto van....
En nu met een smartphone
We gaan foto’s nemen van beide prentjes met een iPhone 6s (uit 2015). Die heeft een goede camera met 12 MP en softwarematige beeldstabilisatie.
We maken de foto’s zo veel mogelijk beeldvullend om de hoogste resolutie te bereiken. Dit wil zeggen dat we heel dichtbij moeten komen met de smartphone. Het gevolg daarvan is een kussen-vervorming van het beeld: rechte randen worden licht gebold. Dat is geen groot probleem als het effect beperkt is. Een goede scanner-app kan dat desnoods rechttrekken.
We nemen de foto’s onder 3 verschillende omstandigheden:
- Daglicht, op een zonnige dag rond de middag. Komend van een dakraam op het westen, rechtsboven t.o.v. de foto.
- Kunstlicht (een ouderwetse gloeilamp) in een verduisterde kamer met nog een klein beetje daglicht. De lamp hangt links van de foto.
- Reproductieopstelling van twee CFL daglichtlampen, onder een hoek van 45°. Zowel links als rechts van de foto staat een lamp.
Met opstelling 1 en 2 moet je goed je positie kiezen om geen last te hebben van schaduwen of reflecties.
Zo zien de digitale reproducties eruit:
Je ziet schaduwen, kleurzwemen en vervormingen. Zolang ze de essentiële tekst niet aantasten kan dat niet veel kwaad, zo blijkt.
De beelden zijn zo gebruikt voor OCROCR of optische karakterherkenning zet een digitale foto van..., zonder bijknippen of andere correcties.
Enkele details van de iPhone foto’s, links zonder statief, rechts met. Telkens bovenaan daglicht, dan kunstlicht, dan reproductiebelichting:
Met statief is toch net iets scherper. De resolutie zit rond 900 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ....
Bonus: Konica Minolta DiMAGE Z2, 4 MP digicam uit 2004
Met deze oude 4 megapixel camera komen we aan bijgeknipte beelden van ±330 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ..., als het bidprentje zo veel mogelijk beeldvullend is.
Ik nam foto’s uit de losse hand bij de 3 gekende belichtingen. Je hebt met deze camera wel een duidelijke kussenvervorming als je zo dichtbij gaat.
De OCR resultaten
Ik heb OCROCR of optische karakterherkenning zet een digitale foto van... uitgevoerd met de IndexScans software. Die gebruikt de prima open-source OCR-engine Tesseract versie 5.
De OCROCR of optische karakterherkenning zet een digitale foto van... van de essentiële gegevens (namen, plaatsen, data) van het recentste bidprentje is volledig correct onder alle omstandigheden en met alle toestellen.
De rest van de tekst is ook perfect, soms op een punt of komma na. Behalve bij de iPhone-foto in daglicht zonder statief (met de blauwe tint en schaduw). Zeker in het schaduwgedeelte is de tekst niet scherp genoeg en dat geeft heel slechte OCROCR of optische karakterherkenning zet een digitale foto van.... En behalve de iPhone-foto met statief in kunstlicht. Die heeft foutjes in de tekst rechts onderaan, want wat overbelicht en heeft minder contrast.
De OCROCR of optische karakterherkenning zet een digitale foto van... van de essentiële gegevens (namen, plaatsen, data) van het oudste prentje zijn grotendeels correct, maar de tekst bevat altijd kleine fouten. Het is in het essentiële gedeelte maar één keer volledig correct. Dat is op de iPhone-foto bij kunstlicht. Maar dat is eerder toeval als we gaan kijken naar wat precies de fouten zijn.
In de volledige tekst gaat het voornamelijk om punten en komma’s, en om de referentie naar Psalm 1 (Ps. 1.).
De OCR-foutjes in de essentiële gegevens zijn klein maar zitten wel in belangrijke woorden om de tekst automatisch te interpreteren:
Gelukkig houdt de IndexScans software rekening met veelvoorkomende OCR-fouten in dergelijke woorden, zodat de automatische indexering wel perfect loopt. Alleen “Hamme” komt er uit zoals de OCROCR of optische karakterherkenning zet een digitale foto van... het leest.
Besluit
Aan 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... geraak je gemakkelijk, ook met oude toestellen.
Voor OCROCR of optische karakterherkenning zet een digitale foto van... maakt het niet uit met welk toestel je digitaliseert, of je een statief gebruikt of niet, of je de ideale belichting kiest of niet. Zolang je scherpe beelden maakt en de tekst recht staat!
Genoeg licht = scherp
Zeker met oude toestellen betekent een scherp beeld dat je veel licht nodig hebt, zodat de sluitertijd kort genoeg blijft om bewegingsonscherpte te vermijden. Ook te diepe schaduwen zijn nefast.
Statief = scherp
Als je geen vaste hand hebt is een statief zeker nuttig.
En het is efficiënter. Het maakt het gemakkelijker om een hele serie prentjes te digitaliseren. Je zet alles één keer goed, het toestel perfect parallel aan de tafel, zodat je geen trapeziumvervorming hebt.
Je hebt dan je handen vrij om telkens een nieuw prentje te leggen en de foto te nemen.
Als de foto bewogen is gaat de OCROCR of optische karakterherkenning zet een digitale foto van... kwaliteit pijlsnel naar beneden. Zie verder.
Als je smartphone of digitale camera een raster van hulplijnen kan tonen op het beeld zet dat dan aan. Dan wordt het des te gemakkelijk om documenten recht uit te lijnen.
Bij scannen is het handig als je scanner of een nabewerkingstool automatisch beelden kan rechtzetten. Met bijgeleverde scannersoftware, NAPS2 open source scanner software (in geavanceerde profielinstellingen kan je aangeven om scans meteen recht te zetten, of achteraf kan ook) of een tool zoals AutoSplitter .
Test met slechte scan
We hebben een licht bewogen en tegelijk een klein beetje scheefstaande foto
Daaruit haalt de OCROCR of optische karakterherkenning zet een digitale foto van... enkel dit:
BID VOOR DE ZIEL PAULUS GOOSSENS Ludovicus en van Francisca Maes
En dat is voor het volledige prentje!
Als je de tekst rechtdraait wordt het dit:
BID VOOR DE ZIEL PAULUS GOOSSENS Beminde Broed een beter Vaderlan des He derzien in den Hemel. it Aiju Jezus ! Bermhe e, druk Odilon E
Een lichte onscherpte maakt de OCROCR of optische karakterherkenning zet een digitale foto van... volledig onbruikbaar …
Digitale archivering?
Dit artikel gaat niet over digitale archivering, dat verdient een apart artikel. Maar als je doel naast OCROCR of optische karakterherkenning zet een digitale foto van... ook digitale archivering is dan wil je een goede digitale kopie, zonder vervormingen of kleurzwemen, op een resolutie van minstens 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ... en liever nog 600 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ....
Dat kan met een camera en een goede opstelling, maar een scanner blijft toch de gemakkelijkste manier om consistent die kwaliteit te halen.
2 gedachten over “Getest en vergeleken: digitaliseren met de smartphone (voor OCR)”