OCR of optische karakterherkenning zet een digitale foto van tekst, die alleen een mens kan lezen, om in tekst die een computer kan lezen en die je in een tekstverwerker kan bewerken.
Als je ervaring met OCR minder recent is dan ben je misschien sceptisch tegenover de kwaliteit. Maar die is tegenwoordig behoorlijk goed, op voorwaarde dat de kwaliteit van de scan/foto goed is (min. 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ..., scherp, tekst horizontaal). En op voorwaarde dat de oorspronkelijke tekst duidelijk gedrukt is, geen vlekken bevat, geen al te afwijkende lettertypes bevat (bv. met veel versieringen of lijkend op handschrift). Bij 19de-eeuwse bidprentjes kan dat al eens tegenvallen.
Neem dit bidprentje in het Comic Sans lettertype:
In 2018 met versie 3 van de prima Open Source Tesseract OCR-engine van Google kreeg je een “bruikbare” tekst, maar toch met nogal wat fouten in essentiële woorden:
Liefdevol aandenken aan Iluna De Dobbelaere doch*erf_je van Chris'roph en Sarah De Dobbelaere - Bollen zusje van Nicola geboren 're Leuven op 27 januari 2009 en plots thuis fe Hamme overleden op 20 juli 2009. De famiiies DE DOBBELAERE en BOLLEN danken u oprecht voor uw aanwezigheid en steun. Begrafenissen Leemans -- Tel. 052/47 04 98
In 2020 met versie 5 van datzelfde Tesseract, dat actuelere methodes gebruikt (Machine Learning / Deep Learning), is het volledig foutloos:
Liefdevol aandenken aan Iluna De Dobbelaere dochtertje van Christoph en Sarah De Dobbelaere - Bollen zusje van Nicola geboren te Leuven op 27 januari 2009 en plots thuis te Hamme overleden op 20 juli 2009. De families DE DOBBELAERE en BOLLEN danken u oprecht voor uw aanwezigheid en steun. Begrafenissen Leemans - Tel. 052/47 04 98