OCR - Spoorzoeker

OCR of optische karakterherkenning zet een digitale foto van tekst, die alleen een mens kan lezen, om in tekst die een computer kan lezen en die je in een tekstverwerker kan bewerken.

Als je ervaring met OCR minder recent is dan ben je misschien sceptisch tegenover de kwaliteit. Maar die is tegenwoordig behoorlijk goed, op voorwaarde dat de kwaliteit van de scan/foto goed is (min. 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ..., scherp, tekst horizontaal). En op voorwaarde dat de oorspronkelijke tekst duidelijk gedrukt is, geen vlekken bevat, geen al te afwijkende lettertypes bevat (bv. met veel versieringen of lijkend op handschrift). Bij 19de-eeuwse bidprentjes kan dat al eens tegenvallen.

Neem dit bidprentje in het Comic Sans lettertype:

In 2018 met versie 3 van de prima Open Source Tesseract OCR-engine van Google kreeg je een “bruikbare” tekst, maar toch met nogal wat fouten in essentiële woorden:

Liefdevol aandenken aan
Iluna De Dobbelaere
doch*erf_je van
Chris'roph en Sarah
De Dobbelaere - Bollen
zusje van
Nicola
geboren 're Leuven op 27 januari 2009
en plots thuis fe Hamme overleden
op 20 juli 2009.
De famiiies DE DOBBELAERE en BOLLEN
danken u oprecht
voor uw aanwezigheid en steun.
Begrafenissen Leemans -- Tel. 052/47 04 98

In 2020 met versie 5 van datzelfde Tesseract, dat actuelere methodes gebruikt (Machine Learning / Deep Learning), is het volledig foutloos:

Liefdevol aandenken aan
Iluna De Dobbelaere
dochtertje van
Christoph en Sarah
De Dobbelaere - Bollen
zusje van
Nicola
geboren te Leuven op 27 januari 2009
en plots thuis te Hamme overleden
op 20 juli 2009.
De families DE DOBBELAERE en BOLLEN
danken u oprecht
voor uw aanwezigheid en steun.
Begrafenissen Leemans - Tel. 052/47 04 98

De foto’s uit mijn collectie zijn in principe niet te koop, maar een ernstig bod kan ik altijd in overweging nemen.