Bij de data entry van de volkstellingen en de controle daarvan zijn verschillende methoden gebruikt. De volgende personen en instellingen hebben de data entry en de controle uitgevoerd: Jaar | VT | BT | WT | Data entry | Controle |
1795 | + | | | Cendris | HG |
1830 | + | | | HG | HG |
1840 | + | | | HG | HG |
1849 | + | + | | Cendris | HG |
1859 | + | + | | Cendris | HG+TV |
1869 | + | | | NIWI | |
1879 | + | | | NIWI | |
1889 | + | + | | Service Profs | |
1899 | + | + | + | CBS/Cendris | TV |
1909 | + | + | + | NIWI/Service Profs | |
1919 | | | + | NIWI | |
1920 | + | + | | Service Profs | |
1930 | + | + | + | Cendris | TV |
1947 | + | + | + | Belfast/P2D | TV |
1956 | | | + | Belfast/P2D | TV |
1960 | + | + | | Niet (bronbestand digitaal beschikbaar) | |
1971 | + | + | + | Niet (bronbestand digitaal beschikbaar) | |
Uitleg data entryCendris, P2D, HG en CBS
Cendris: professioneel data entry bureau
P2D: paper2Digital, professioneel data entry bureau
HG: Hans Heger en Henny Gooren van de Katholieke Universiteit Nijmegen
CBS: Centraal Bureau voor de Statistiek
De tabellen zijn gedigitaliseerd door dubbele data entry. De twee bestanden zijn met elkaar vergeleken en waar een verschil werd geconstateerd is nagegaan welk getal het juiste is.
NIWI en Service Profs
NIWI: Nederlands Instituut voor Wetenschappelijke Informatiediensten
Service Profs: professioneel data entry bureau
Van het cijfermateriaal zijn alleen de elementaire cijfers ingevoerd. Totalen, subtotalen en andere berekende waarden, zoals percentages, zijn berekend door een formule in Excel. De data-entry medewerkers controleren of de berekende aantallen kloppen met de gedrukte getallen. Als het verschil is veroorzaakt door een typefout, dan wordt deze gecorrigeerd, is het een zogenaamde bronfout, dan wordt het getal dat in de gedrukte versie staat in een opmerking gezet. Meestal staat er in de opmerking een naam of afkorting vóór het getal; dit duidt op degene die het bestand heeft gemaakt, de persoon die de cijfers heeft ingetikt of het bedrijf waar deze persoon in dienst was.
Belfast
Belfast: Centre for Data Digitisation and Analysis (CDDA)
De tabellen zijn gedigitaliseerd met behulp van optische tekenherkenning.
Uitleg controle
HG
HG: Hans Heger en Henny Gooren van de Katholieke Universiteit Nijmegen
Subtotalen, totalen en andere berekende waarden zijn gecontroleerd met behulp van formules in Excel. Bij verschillen is nagegaan of het een data entry fout of een bronfout betreft. Data entry fouten zijn verbeterd, bronfouten zijn blijven staan, zodat het resultaat zo goed mogelijk overeenkomt met de gedrukte bron.
TV
TV: Tom Vreugdenhil
Subtotalen, totalen en andere berekende waarden zijn gecontroleerd met behulp van Turbo Pascal (1899) en Visual Basic programma’s (1859, 1930, 1947 en 1956). Bij verschillen is nagegaan of het een data entry fout of een bronfout betreft. Data entry fouten zijn verbeterd, bronfouten zijn blijven staan, zodat het resultaat zo goed mogelijk overeenkomt met de gedrukte bron.
Conclusie
Door de analyses, zowel van Hans Heger en Henny Gooren als van Tom Vreugdenhil is gebleken, dat dubbele data entry zeer betrouwbaar is, het aantal alsnog gevonden data entry fouten ligt in de orde van enkele honderdsten procent. Na verbetering van de in deze analyse gevonden fouten zal het aantal nog veel lager liggen.
Bij de tellingen van 1869, 1879, 1889, 1909, 1919 en 1920 zijn tijdens de data entry, zoals uit bovenstaande blijkt, al enige controles uitgevoerd. In het derde kwartaal van 2007 zijn ook deze tellingen nader geanalyseerd. Hieruit bleek, dat het aantal nog aanwezige fouten weliswaar klein is, maar niet klein genoeg naar de bij de andere tellingen aangelegde maatstaven. Momenteel (november 2007) wordt nagegaan welke de meest efficiënte methoden van controle en verbetering zijn. In geval van twijfel kunnen de images worden geraadpleegd die ook op deze site staan.
Van de tellingen van 1889 zijn van enkele tabellen geen Excel versies, maar alleen pdf bestanden en images beschikbaar. Ook bij de tellingen van 1909 en 1920 ontbreken enkele Excel bestanden, in dit geval zijn daar alleen images van beschikbaar. De bedoeling is, dat de Excel tabellen alsnog gemaakt worden.