IndexScans is op maat gemaakte software
om doodsprentjes en rouwbrieven automatisch om te zetten
van scans naar Excel-gegevens
Bidprentjes of doodsprentjes, en rouwbrieven, bevatten heel wat interessante informatie, lees er meer over in Haal het maximum aan informatie uit doodsprentjes.
Automatische indexering is een proces in vier stappen:
- Scannen
- OCROCR of optische karakterherkenning zet een digitale foto van...
- Informatie extractie
- Correctie
- Vanwaar het IndexScans project?
- Gebruikers
1. Scannen
Om snel en efficiënt veel doodsprentjes te scannen, heb je een documentscanner (bulkscanner, ADF-scanner) nodig. Die beschikt over een automatische documentinvoerlade (ADF) met een rechte doorvoer (zonder bochten). Je legt een stapel doodsprentjes in de invoerlade en ze worden automatisch één voor één gescand.
De minimumresolutie voor goede OCROCR of optische karakterherkenning zet een digitale foto van... resultaten is 300 dpiDPI staat voor Dots Per Inch, punten per inch. De term komt .... Bij heel kleine lettertypes scan je eventueel op een hogere resolutie.
Kies 24-bit kleur voor een perfecte kleurweergave van het origineel en voor de beste OCROCR of optische karakterherkenning zet een digitale foto van....
Lees meer over Bidprentjes digitaliseren met het oog op automatische verwerking.
Bestandsformaten
Als je alleen scant om een digitale raadplegingskopie te hebben en die te gebruiken voor OCROCR of optische karakterherkenning zet een digitale foto van... dan is JPGJPG is een bestandsformaat voor afbeeldingen, het gebruikt e... perfect. Maar stel de kwaliteit wel in op hoog: 90% tot 95%, d.w.z. lage compressie. En bewerk de bestanden nooit (bvb bijknippen) om kwaliteitsverlies te vermijden.
TIF en PDF kan je ook gebruiken als bestandsformaat. Ze zijn eveneens geschikt voor digitale archiveringsdoeleinden, mits je de correcte instellingen gebruikt. Beiden kunnen zowel niet-gecomprimeerde, JPEG-gecomprimeerde, als verliesloos-gecomprimeerde (LZW, ZIP, …) scans bevatten. Ook hier moet je bij gebruik van JPEG-compressie zeker zorgen voor de instelling hoge kwaliteit.
Weet wat je doet en stel alles correct in bij de scannersoftware. Het volstaat niet om TIF of PDF aan te duiden, bekijk zeker de uitgebreide instellingen bij elke bestandsformaat.
Digitalisering en digitale archivering
Op zich zijn doodsprentjes tekstdocumenten, al zijn er heel wat doodsprentjes met portret die echte foto’s zijn en geen drukwerk.
Welke kwaliteitseisen je stelt aan digitalisering is afhankelijk van het soort organisatie en het doel van de digitalisering.
Heemkundige, geschiedkundige en genealogische verenigingen en andere organisaties met beperkte middelen moeten niet per se naar het allerhoogste kwaliteitsniveau streven. Het niveau “administratief digitaliseren” volstaat (zie FARO Handboek digitaliseren van documenten uit 2011). Daarbij wordt een afweging gemaakt tussen leesbaarheid, bestandsomvang (verliesloos gecomprimeerde, en zeker ongecomprimeerde, scans nemen veel digitale opslagruimte in beslag) en de kosten om dat te realiseren.
Richtlijnen voor digitalisering van tekstdocumenten zijn te vinden bij Project CEST: https://www.projectcest.be/wiki/Richtlijn:Tekstdocumenten_digitaliseren
2. OCR
IndexScans voert zelf OCROCR of optische karakterherkenning zet een digitale foto van... uit met de Open Source OCR-engine Tesseract (versie 5).
IndexScans kan ook van andere OCR-engines gebruik maken. Zo is text detection met de Google Vision API ingebouwd. Dat is een betalende dienst, de eerste 1000 scans per maand zijn gratis, daarboven betaal je 1,5 $ per 1000 scans. Je hebt een eigen Google Cloud Platform account nodig.
De kwaliteit van de OCROCR of optische karakterherkenning zet een digitale foto van... is heel goed. Google Vision kan bijvoorbeeld vrij goed overweg met cursief gedrukte fantasielettertypes waarmee in een bepaalde periode vaak de naam van de overledene werd gedrukt.
Daarom voorziet IndexScans in de mogelijkheid om de Google Vision API als tweede OCR-engine te gebruiken. Je gebruikt het dan als backup, alleen voor scans die met Tesseract geen goed resultaat geven.
Als je scans al OCROCR of optische karakterherkenning zet een digitale foto van... hebben ondergaan (in een PDF bijvoorbeeld), dan kan IndexScans die desgewenst hergebruiken. Helaas is de OCROCR of optische karakterherkenning zet een digitale foto van... die door scannerprogramma’s wordt aangeboden, in het geval van bidprentjes en rouwbrieven, meestal van bedroevende kwaliteit en zo goed als onbruikbaar. Je kan die beter uitzetten.
3. Informatie Extractie
Informatie extractie is informatie uit ongestructureerde tekst halen om entiteiten (zoals persoonsnamen, plaatsnamen, datums, …) te vinden, te classificeren en op te slaan.
Het resultaat is bijvoorbeeld een tabel met alle geïndexeerde gegevens in de juiste kolommen.
Technieken voor informatie extractie hebben een lange geschiedenis in de artificiële intelligentie, met name in text mining en natural language processing. Het is de laatste jaren door Machine Learning en Deep Learning in een stroomversnelling geraakt.
IndexScans maakt geen gebruik van Machine Learning of Deep Learning, dat zijn eigenlijk zwarte dozen waarbij je niet weet wat er precies in gebeurt, en die je niet zomaar kunt bijregelen als iets niet werkt. Je hebt er een grote trainingsset voor nodig, en wat niet werkt kan je alleen oplossen door hertraining.
IndexScans gebruikt een combinatie van een op regels gebaseerde aanpak, met patroonherkenning en woordenlijsten. Dat is de eenvoudigste vorm van kunstmatige intelligentie, en het is heel goed geschikt voor een afgelijnd domein met semi-gestructureerde documenten zoals bidprentjes en rouwbrieven:
- geschikt voor een beperkt aantal duidelijke patronen die weinig of niet veranderen in de loop van de tijd.
- levert hoge precisie
- altijd bekend waarom een beslissing genomen is, regels kunnen geoptimaliseerd worden
De volgende informatie wordt geëxtraheerd:
- Naam overledene + gesplitst in Voornaam;Achternaam
- Geboorteplaats
- Geboortedatum
- Overlijdensplaats
- Thuis overleden (soms is geen overlijdensplaats opgegeven, maar wel “thuis”)
- Overlijdensdatum
- Leeftijd overlijden (indien vermeld en er is geen geboortedatum opgegeven)
- Geslacht overledene
- Relatie met achterblijvers (partner, echtgenoot, weduwe, kind, …)
- Naam achterblijvers + gesplitst in Voornaam;Achternaam
- Families
- Portret aanwezig
Alle gegevens worden in een tabel gelinkt aan de bestandsnamen van de scans.
IndexScans
IndexScans voert na de OCR-stap de informatie extractie uit. Het bedieningsscherm is heel eenvoudig. Als alles is ingesteld voor je eigen workflow moet je alleen maar de folder kiezen waar de scans staan en op “Start indexering” klikken.
Het resultaat is een CSV-bestand, dat je in Excel kan openen. Je kan het verder verwerken in een database, of op een andere manier, om de index beschikbaar te maken.
Beperkingen
- IndexScans is momenteel alleen geoptimaliseerd voor Nederlandstalige doodsprentjes en rouwbrieven.
- Er is nog geen optimalisatie voor doodsprentjes van religieuzen.
- 19de-eeuwse prentjes zijn problematisch omwille van slechte OCROCR of optische karakterherkenning zet een digitale foto van... resultaten
- Erg afwijkende lay-outs lopen niet goed.
- Gezichtsherkenning (voor de vraag “is er een foto van de overleden aanwezig?”) werkt niet altijd perfect, o.a. wegens compromissen om gezichten van Jezus, Maria, engelen, en dergelijke uit te sluiten
Toekomst
- Constante verbeteringen op basis van feedback (bv. ingezonden fout geïndexeerde prentjes).
- Verbeteringen in de gebruikte technieken, om de nauwkeurigheid op te drijven.
Als het indexeren afgelopen is kan je meteen naar het correctieprogramma gaan met de knop “Open in Viewer”.
4. Correctie
Waar het vrijwilligerswerk onvermijdelijke menselijke fouten meebracht, brengt een geautomatiseerde indexering “machinefouten” met zich mee. Een honderd procent correct resultaat zal helaas nooit mogelijk zijn op een grote collectie. Bij een “normale” batch zit je aan minstens 70-80 % volledig correcte indexering van alle velden. Als je alleen kijkt naar basisgegevens als naam van de overledene en de datums, dan is de correctheid in de 90%.
Automatische informatie extractie is niet foutloos, om verschillende redenen:
- de drukkwaliteit van het bronmateriaal
- de staat van het bronmateriaal (vlekken, scheuren, vouwen, stempels, opschriften, …)
- de kwaliteit van de scan (dpiDPI staat voor Dots Per Inch, punten per inch. De term komt ..., scherpte, vervorming, scheeftrekken, …)
- de mate van compressie bij het gebruikte bestandsformaat
- de kwaliteit van OCROCR of optische karakterherkenning zet een digitale foto van... (alle bovenstaande factoren, gebruikte lettertypes en lay-outs)
- het informatie extractie algoritme (onvoorziene, creatieve of afwijkende layouts en formuleringen)
Menselijke controle achteraf blijft dus noodzakelijk, maar het gaat wel veel sneller dan een volledig manueel proces. Daarom schreef ik ook een correctieprogramma, dat het nakijken en corrigeren nog gemakkelijker maakt.
Correctieprogramma
In het correctieprogramma zie je de geïndexeerde gegevens naast de scans. Het programma bezit een zekere intelligentie en geeft met kleuren (geel-oranje-rood) aan welke gegevens mogelijk, waarschijnlijk of zeker fout zijn of ontbreken. Dat versnelt het nakijken in grote mate.
Je moet uiteraard ook alleen maar de gegevens corrigeren die je gaat gebruiken om je collectie te ontsluiten.
Je kan prentjes markeren om ze achteraf te verplaatsen of te kopiëren naar een andere folder.
Dat is bijvoorbeeld handig om, bij een eerste controle, de prentjes met fouten te markeren en ze naar een andere folder te verplaatsen om ze later te corrigeren. Zo kan je de correct geïndexeerde prentjes meteen publiceren.
De fout geïndexeerde kan je manueel corrigeren, proberen te indexeren met andere instellingen of eventueel later proberen te indexeren met een nieuwe versie van IndexScans.
Hieronder het hele proces van scannen tot volledige index
Ik verkreeg een pakket van 303 bidprentjes, in iets meer dan anderhalf uur waren ze volledig gescand, geïndexeerd en gecorrigeerd. Dat is ongeveer 20 sec. per prentje.
Test het eens uit met een paar bidprentjes via de online demo van IndexScans.
5. Hoe kan je IndexScans gebruiken?
Overweeg je om IndexScans te gebruiken, twijfel je of dat wel goed werkt, wil je een idee hebben van de resultaten? Stuur dan gratis en vrijblijvend een batch met scans van een 100-tal prentjes door (via WeTransfer o.i.d. naar info@petereyckerman.be), dan haal ik ze erdoor en kan je het resultaat met eigen ogen beoordelen.
Je kan IndexScans momenteel op twee manieren gaan gebruiken:
1. Installatie op een PC of laptop
Je installeert hiermee het indexeringsprogramma en het correctieprogramma, evenals de Tesseract OCROCR of optische karakterherkenning zet een digitale foto van... engine. Er is een installatiehandleiding, een zekere computerkennis kan helpen, maar als je de handleiding volgt moet het lukken. Bij problemen krijg je hulp.
IndexScans is gemakkelijk te gebruiken eens het correct is ingesteld voor je specifieke situatie. Aan de hand van een test met een 100-tal bidprentjes wordt alles juist ingesteld voor de manier waarop je werkt (JPGJPG is een bestandsformaat voor afbeeldingen, het gebruikt e..., TIF, PDF, recto-verso in aparte bestanden of niet, …) en het resultaat dat je wenst (bestanden hernoemen volgens een bepaald patroon, volledige OCROCR of optische karakterherkenning zet een digitale foto van... tekst bewaren in apart bestanden, gezichten detecteren, …).
Het is geen bliksemsnel proces, vooral OCROCR of optische karakterherkenning zet een digitale foto van... neemt relatief veel tijd in beslag. Maar je kan het programma zelfstandig laten lopen op de achtergrond terwijl je iets anders doet. Hoe performanter de PC of laptop, hoe sneller OCROCR of optische karakterherkenning zet een digitale foto van... en indexering verlopen.
Je betaalt een eenmalig licentiebedrag per installatie, waarmee je de aangekochte versie zolang kunt gebruiken als je wil. Toekomstige updates kan je desgewenst aanschaffen aan een gereduceerd bedrag.
Prijzen kan je bekomen op aanvraag via info@petereyckerman.be.
2. Indexeringsdienst op afstand
Je stuurt scans door via WeTransfer of een andere dergelijke dienst en je krijgt een CSV-bestand terug dat je in Excel kunt openen. Je kan een eigen controlesysteem gebruiken of het IndexScans-correctieprogramma, dat je er gratis bijkrijgt.
Je betaalt hiervoor 1 cent per bidprentje, met een minimum van 5 euro (500 bidprentjes/rouwbrieven).
Het voordeel is dat je geen installatiezorgen hebt, niet gebonden bent aan één PC en dat ik je bestanden altijd met de recentste versie indexeer. Bovendien kijk ik het resultaat altijd na op fouten die snel aangepast kunnen worden in de software. Waarna ik je bestanden opnieuw indexeer met die aanpassingen. Je werkt zo meteen mee aan de verbetering van de software voor iedereen.
Geïnteresseerd? Stuur mij een bericht op info@petereyckerman.be.
6. Vanwaar het IndexScans project?
Ik kwam voor het eerst echt in contact met de verschillende soorten van aanpak en met de problemen bij doodsprentjescollecties bij verenigingen, via mijn deelname aan het PRODEO-project van Familiekunde Vlaanderen (FV) in 2012-2016. We voerden o.a. een survey uit bij een aantal afdelingen van FV en bezochten de Nederlandse Genealogische Vereniging.
In 2021 bevroeg ik nog enkele afdelingen van FV en een geschied- en heemkundige kring voor een actuele kijk op de verwerking van doodsprentjescollecties.
In eerste instantie was IndexScans een experiment en uitdaging (“dat moet toch mogelijk zijn”), bedoeld voor mijn eigen collectie bidprentjes. Het bleek behoorlijk goed te werken en ik weet hoeveel werk verenigingen en verzamelaars steken in indexering. Daarom maak ik het ruimer beschikbaar. Ondertussen ondersteund het ook rouwbrieven.
Ik genoot een academische opleiding tot bio-ingenieur, was softwareontwikkelaar gedurende 15 jaar en al meer dan 10 jaar professioneel genealoog. Het ontwikkelen van software als gereedschap voor automatisering bleef een constante tot nu. Meer lezen over mij.
7. Gebruikers
Wie gebruikt IndexScans?
Het programma is heel nuttig voor genealogische verenigingen, heemkundige kringen en andere verenigingen, instellingen en archieven met grote collecties bidprentjes en rouwbrieven die ze willen ontsluiten. Maar ook particuliere verzamelaars kunnen er hun voordeel mee doen.
Momenteel gebruiken enkele afdelingen van Familiekunde Vlaanderen en enkele privépersonen IndexScans.
Enkele gebruikers publiceren of getuigen over IndexScans:
- Deze bidprentjesindex op de collectie van Familiekunde Vlaanderen Regio Leuven is met IndexScans gemaakt, zoals de inleiding vermeldt.
- Familiekunde Vlaanderen Regio Vlaamse Ardennen getuigt over IndexScans op Facebook. Lees ook de verdere commentaren van de originele poster van het bericht.
of contacteer mij voor meer informatie op info@petereyckerman.be