IndexScans is op maat gemaakte software
om doodsprentjes en rouwbrieven automatisch om te zetten
van scans naar Excel-gegevens

Bidprentjes of doodsprentjes, en rouwbrieven, bevatten heel wat interessante informatie, lees er meer over in Haal het maximum aan informatie uit doodsprentjes.

Automatische indexering is een proces in vier stappen:

  1. Scannen
  2. OCR
  3. Informatie extractie
  4. Correctie
  5. Vanwaar het IndexScans project?
  6. Gebruikers

1. Scannen

Om snel en efficiënt veel doodsprentjes te scannen, heb je een documentscanner (bulkscanner, ADF-scanner) nodig. Die beschikt over een automatische documentinvoerlade (ADF) met een rechte doorvoer (zonder bochten). Je legt een stapel doodsprentjes in de invoerlade en ze worden automatisch één voor één gescand.

De minimumresolutie voor goede OCR resultaten is 300 dpi. Bij heel kleine lettertypes scan je eventueel op een hogere resolutie.

Kies 24-bit kleur voor een perfecte kleurweergave van het origineel en voor de beste OCR.

Lees meer over Bidprentjes digitaliseren met het oog op automatische verwerking.

Bestandsformaten

Als je alleen scant om een digitale raadplegingskopie te hebben en die te gebruiken voor OCR dan is JPG perfect. Maar stel de kwaliteit wel in op hoog: 90% tot 95%, d.w.z. lage compressie. En bewerk de bestanden nooit (bvb bijknippen) om kwaliteitsverlies te vermijden.

TIF en PDF kan je ook gebruiken als bestandsformaat. Ze zijn eveneens geschikt voor digitale archiveringsdoeleinden, mits je de correcte instellingen gebruikt. Beiden kunnen zowel niet-gecomprimeerde, JPEG-gecomprimeerde, als verliesloos-gecomprimeerde (LZW, ZIP, …) scans bevatten. Ook hier moet je bij gebruik van JPEG-compressie zeker zorgen voor de instelling hoge kwaliteit.

Weet wat je doet en stel alles correct in bij de scannersoftware. Het volstaat niet om TIF of PDF aan te duiden, bekijk zeker de uitgebreide instellingen bij elke bestandsformaat.

Digitalisering en digitale archivering

Op zich zijn doodsprentjes tekstdocumenten, al zijn er heel wat doodsprentjes met portret die echte foto’s zijn en geen drukwerk.

Welke kwaliteitseisen je stelt aan digitalisering is afhankelijk van het soort organisatie en het doel van de digitalisering.

Heemkundige, geschiedkundige en genealogische verenigingen en andere organisaties met beperkte middelen moeten niet per se naar het allerhoogste kwaliteitsniveau streven. Het niveau “administratief digitaliseren” volstaat (zie FARO Handboek digitaliseren van documenten uit 2011). Daarbij wordt een afweging gemaakt tussen leesbaarheid, bestandsomvang (verliesloos gecomprimeerde, en zeker ongecomprimeerde, scans nemen veel digitale opslagruimte in beslag) en de kosten om dat te realiseren.

Richtlijnen voor digitalisering van tekstdocumenten zijn te vinden bij Project CEST: https://www.projectcest.be/wiki/Richtlijn:Tekstdocumenten_digitaliseren

2. OCR

IndexScans voert zelf OCR uit met de Open Source OCR-engine Tesseract (versie 5).

IndexScans kan ook van andere OCR-engines gebruik maken. Zo is text detection met de Google Vision API ingebouwd. Dat is een betalende dienst, de eerste 1000 scans per maand zijn gratis, daarboven betaal je 1,5 $ per 1000 scans. Je hebt een eigen Google Cloud Platform account nodig.
De kwaliteit van de OCR is heel goed. Google Vision kan bijvoorbeeld vrij goed overweg met cursief gedrukte fantasielettertypes waarmee in een bepaalde periode vaak de naam van de overledene werd gedrukt.

Daarom voorziet IndexScans in de mogelijkheid om de Google Vision API als tweede OCR-engine te gebruiken. Je gebruikt het dan als backup, alleen voor scans die met Tesseract geen goed resultaat geven.

Als je scans al OCR hebben ondergaan (in een PDF bijvoorbeeld), dan kan IndexScans die desgewenst hergebruiken. Helaas is de OCR die door scannerprogramma’s wordt aangeboden, in het geval van bidprentjes en rouwbrieven, meestal van bedroevende kwaliteit en zo goed als onbruikbaar. Je kan die beter uitzetten.

3. Informatie Extractie

Informatie extractie is informatie uit ongestructureerde tekst halen om entiteiten (zoals persoonsnamen, plaatsnamen, datums, …) te vinden, te classificeren en op te slaan.
Het resultaat is bijvoorbeeld een tabel met alle geïndexeerde gegevens in de juiste kolommen.

Technieken voor informatie extractie hebben een lange geschiedenis in de artificiële intelligentie, met name in text mining en natural language processing. Het is de laatste jaren door Machine Learning en Deep Learning in een stroomversnelling geraakt.

IndexScans maakt geen gebruik van Machine Learning of Deep Learning, dat zijn eigenlijk zwarte dozen waarbij je niet weet wat er precies in gebeurt, en die je niet zomaar kunt bijregelen als iets niet werkt. Je hebt er een grote trainingsset voor nodig, en wat niet werkt kan je alleen oplossen door hertraining.

IndexScans gebruikt een combinatie van een op regels gebaseerde aanpak, met patroonherkenning en woordenlijsten. Dat is de eenvoudigste vorm van kunstmatige intelligentie, en het is heel goed geschikt voor een afgelijnd domein met semi-gestructureerde documenten zoals bidprentjes en rouwbrieven:

  • geschikt voor een beperkt aantal duidelijke patronen die weinig of niet veranderen in de loop van de tijd.
  • levert hoge precisie
  • altijd bekend waarom een beslissing genomen is, regels kunnen geoptimaliseerd worden

De volgende informatie wordt geëxtraheerd:

  • Naam overledene + gesplitst in Voornaam;Achternaam
  • Geboorteplaats
  • Geboortedatum
  • Overlijdensplaats
  • Thuis overleden (soms is geen overlijdensplaats opgegeven, maar wel “thuis”)
  • Overlijdensdatum
  • Leeftijd overlijden (indien vermeld en er is geen geboortedatum opgegeven)
  • Geslacht overledene
  • Relatie met achterblijvers (partner, echtgenoot, weduwe, kind, …)
  • Naam achterblijvers + gesplitst in Voornaam;Achternaam
  • Families
  • Portret aanwezig

Alle gegevens worden in een tabel gelinkt aan de bestandsnamen van de scans.

IndexScans

IndexScans voert na de OCR-stap de informatie extractie uit. Het bedieningsscherm is heel eenvoudig. Als alles is ingesteld voor je eigen workflow moet je alleen maar de folder kiezen waar de scans staan en op “Start indexering” klikken.

Het resultaat is een CSV-bestand, dat je in Excel kan openen. Je kan het verder verwerken in een database, of op een andere manier, om de index beschikbaar te maken.

Beperkingen

  • IndexScans is momenteel alleen geoptimaliseerd voor Nederlandstalige doodsprentjes en rouwbrieven.
  • Er is nog geen optimalisatie voor doodsprentjes van religieuzen.
  • 19de-eeuwse prentjes zijn problematisch omwille van slechte OCR resultaten
  • Erg afwijkende lay-outs lopen niet goed.
  • Gezichtsherkenning (voor de vraag “is er een foto van de overleden aanwezig?”) werkt niet altijd perfect, o.a. wegens compromissen om gezichten van Jezus, Maria, engelen, en dergelijke uit te sluiten

Toekomst

  • Constante verbeteringen op basis van feedback (bv. ingezonden fout geïndexeerde prentjes).
  • Verbeteringen in de gebruikte technieken, om de nauwkeurigheid op te drijven.

Als het indexeren afgelopen is kan je meteen naar het correctieprogramma gaan met de knop “Open in Viewer”.

4. Correctie

Waar het vrijwilligerswerk onvermijdelijke menselijke fouten meebracht, brengt een geautomatiseerde indexering “machinefouten” met zich mee. Een honderd procent correct resultaat zal helaas nooit mogelijk zijn op een grote collectie. Bij een “normale” batch zit je aan minstens 70-80 % volledig correcte indexering van alle velden. Als je alleen kijkt naar basisgegevens als naam van de overledene en de datums, dan is de correctheid in de 90%.

Automatische informatie extractie is niet foutloos, om verschillende redenen:

  1. de drukkwaliteit van het bronmateriaal
  2. de staat van het bronmateriaal (vlekken, scheuren, vouwen, stempels, opschriften, …)
  3. de kwaliteit van de scan (dpi, scherpte, vervorming, scheeftrekken, …)
  4. de mate van compressie bij het gebruikte bestandsformaat
  5. de kwaliteit van OCR (alle bovenstaande factoren, gebruikte lettertypes en lay-outs)
  6. het informatie extractie algoritme (onvoorziene, creatieve of afwijkende layouts en formuleringen)

Menselijke controle achteraf blijft dus noodzakelijk, maar het gaat wel veel sneller dan een volledig manueel proces. Daarom schreef ik ook een correctieprogramma, dat het nakijken en corrigeren nog gemakkelijker maakt.

Correctieprogramma

In het correctieprogramma zie je de geïndexeerde gegevens naast de scans. Het programma bezit een zekere intelligentie en geeft met kleuren (geel-oranje-rood) aan welke gegevens mogelijk, waarschijnlijk of zeker fout zijn of ontbreken. Dat versnelt het nakijken in grote mate.

Je moet uiteraard ook alleen maar de gegevens corrigeren die je gaat gebruiken om je collectie te ontsluiten.

Correctieprogramma

Correctieprogramma – aanduiding van fouten met drie niveaus van ernst. Onderaan lees je in het rood waarom iets als fout wordt gezien.

Je kan prentjes markeren om ze achteraf te verplaatsen of te kopiëren naar een andere folder.

Dat is bijvoorbeeld handig om, bij een eerste controle, de prentjes met fouten te markeren en ze naar een andere folder te verplaatsen om ze later te corrigeren. Zo kan je de correct geïndexeerde prentjes meteen publiceren.
De fout geïndexeerde kan je manueel corrigeren, proberen te indexeren met andere instellingen of eventueel later proberen te indexeren met een nieuwe versie van IndexScans.

Hieronder het hele proces van scannen tot volledige index

Ik verkreeg een pakket van 303 bidprentjes, in iets meer dan anderhalf uur waren ze volledig gescand, geïndexeerd en gecorrigeerd. Dat is ongeveer 20 sec. per prentje.

Test het eens uit met een paar bidprentjes via de online demo van IndexScans.

5. Hoe kan je IndexScans gebruiken?

Overweeg je om IndexScans te gebruiken, twijfel je of dat wel goed werkt, wil je een idee hebben van de resultaten? Stuur dan gratis en vrijblijvend een batch met scans van een 100-tal prentjes door (via WeTransfer o.i.d. naar info@petereyckerman.be), dan haal ik ze erdoor en kan je het resultaat met eigen ogen beoordelen.

Je kan IndexScans momenteel op twee manieren gaan gebruiken:

1. Installatie op een PC of laptop

Je installeert hiermee het indexeringsprogramma en het correctieprogramma, evenals de Tesseract OCR engine. Er is een installatiehandleiding, een zekere computerkennis kan helpen, maar als je de handleiding volgt moet het lukken. Bij problemen krijg je hulp.

IndexScans is gemakkelijk te gebruiken eens het correct is ingesteld voor je specifieke situatie. Aan de hand van een test met een 100-tal bidprentjes wordt alles juist ingesteld voor de manier waarop je werkt (JPG, TIF, PDF, recto-verso in aparte bestanden of niet, …) en het resultaat dat je wenst (bestanden hernoemen volgens een bepaald patroon, volledige OCR tekst bewaren in apart bestanden, gezichten detecteren, …).

Het is geen bliksemsnel proces, vooral OCR neemt relatief veel tijd in beslag. Maar je kan het programma zelfstandig laten lopen op de achtergrond terwijl je iets anders doet. Hoe performanter de PC of laptop, hoe sneller OCR en indexering verlopen.

Je betaalt een eenmalig licentiebedrag per installatie, waarmee je de aangekochte versie zolang kunt gebruiken als je wil. Toekomstige updates kan je desgewenst aanschaffen aan een gereduceerd bedrag.

Prijzen kan je bekomen op aanvraag via info@petereyckerman.be.

2. Indexeringsdienst op afstand

Je stuurt scans door via WeTransfer of een andere dergelijke dienst en je krijgt een CSV-bestand terug dat je in Excel kunt openen. Je kan een eigen controlesysteem gebruiken of het IndexScans-correctieprogramma, dat je er gratis bijkrijgt.
Je betaalt hiervoor 1 cent per bidprentje, met een minimum van 5 euro (500 bidprentjes/rouwbrieven).

Het voordeel is dat je geen installatiezorgen hebt, niet gebonden bent aan één PC en dat ik je bestanden altijd met de recentste versie indexeer. Bovendien kijk ik het resultaat altijd na op fouten die snel aangepast kunnen worden in de software. Waarna ik je bestanden opnieuw indexeer met die aanpassingen. Je werkt zo meteen mee aan de verbetering van de software voor iedereen.

Geïnteresseerd? Stuur mij een bericht op info@petereyckerman.be.

6. Vanwaar het IndexScans project?

Ik kwam voor het eerst echt in contact met de verschillende soorten van aanpak en met de problemen bij doodsprentjescollecties bij verenigingen, via mijn deelname aan het PRODEO-project van Familiekunde Vlaanderen (FV) in 2012-2016. We voerden o.a. een survey uit bij een aantal afdelingen van FV en bezochten de Nederlandse Genealogische Vereniging.
In 2021 bevroeg ik nog enkele afdelingen van FV en een geschied- en heemkundige kring voor een actuele kijk op de verwerking van doodsprentjescollecties.

In eerste instantie was IndexScans een experiment en uitdaging (“dat moet toch mogelijk zijn”), bedoeld voor mijn eigen collectie bidprentjes. Het bleek behoorlijk goed te werken en ik weet hoeveel werk verenigingen en verzamelaars steken in indexering. Daarom maak ik het ruimer beschikbaar. Ondertussen ondersteund het ook rouwbrieven.

Ik genoot een academische opleiding tot bio-ingenieur, was softwareontwikkelaar gedurende 15 jaar en al meer dan 10 jaar professioneel genealoog. Het ontwikkelen van software als gereedschap voor automatisering bleef een constante tot nu. Meer lezen over mij.

7. Gebruikers

Wie gebruikt IndexScans?

Het programma is heel nuttig voor genealogische verenigingen, heemkundige kringen en andere verenigingen, instellingen en archieven met grote collecties bidprentjes en rouwbrieven die ze willen ontsluiten. Maar ook particuliere verzamelaars kunnen er hun voordeel mee doen.

Momenteel gebruiken enkele afdelingen van Familiekunde Vlaanderen en enkele privépersonen IndexScans.

Enkele gebruikers publiceren of getuigen over IndexScans:

of contacteer mij voor meer informatie op info@petereyckerman.be

De foto’s uit mijn collectie zijn in principe niet te koop, maar een ernstig bod kan ik altijd in overweging nemen.