Volkstelling 1899
De tekst uit de inleiding van de Volkstelling 1899 is bij het NIWI via scanning en OCR geconverteerd. Dat is ook gedaan met de kleine tabellen uit de inleiding (van twee pagina's of minder) en met de voorkolom van het rijksdeel van de beroepstelling. Voor het overige zijn alle tabellen van de Volkstelling 1899 (incl. beroeps- en woningtelling) handmatig ingetoetst. Dat is gedeeltelijk gedaan bij het CBS (vestiging Heerlen) en gedeeltelijk, in opdracht van het CBS, bij IVA Data Entry Services BV te Rijswijk (vestiging Heerlen). Bij het handmatig intoetsen heeft in alle gevallen controletoetsing plaats gevonden om het aantal invoerfouten zoveel mogelijk te beperken.
De inhoudsconversie heeft dus grotendeels handmatig plaatsgevonden. Tabel 2 geeft een overzicht van de aantallen verwerkte pagina's van de Volkstelling 1899 (incl. beroeps- en woningtelling). Het totaal aantal ingevoerde pagina's bedraagt ca. 10.000, waarvan de eigenlijke VT er ca. 3000 omvat. Uitgaande van een geschat gemiddeld aantal tekens per tabel-pagina van ruim 1700, is geschat dat het totaal aantal tekens in de tellingen ca. 17 miljoen bedraagt.Tabel 2: Aantal pagina's Volkstelling 1899 (incl. BRT en WT)
Deel | VT | BRT | WT | Totaal | Inleiding | - | - | - | 498 | Noord-Brabant | 350 | 521 | - | 871 | Gelderland | 319 | 625 | - | 944 | Zuid-Holland | 371 | 889 | - | 1260 | Noord-Holland | 297 | 703 | - | 1000 | Zeeland | 182 | 183 | - | 365 | Utrecht | 152 | 259 | - | 411 | Friesland | 258 | 575 | - | 833 | Overijssel | 216 | 515 | - | 731 | Groningen | 184 | 369 | - | 553 | Drenthe | 112 | 167 | - | 279 | Limburg | 242 | 329 | - | 571 | Het Rijk - Totaal | 205 | 271 | - | 476 | Het Rijk - Gemeentegrootte-klassen' | - | 959 | | 959 | Het Rijk - Woningtelling | - | - | 174 | 174 | Totaal | 3058 | 6524 | 174 | 9925 | ' Niet ingevoerd wegens redundantieBesloten is om het deel van de beroepstelling, waarin de gegevens zijn gepubliceerd naar gemeente-grootteklassen, niet in te voeren. Met het beschikbaar komen van een bestand met gegevens per gemeente is deze informatie grotendeels redundant. Ook voor controle op de juistheid voegt dat deel weinig toe, omdat er al tal van andere aggregaties zijn, die controle mogelijk maken. Controles en correcties op de gegevensbestanden
Bij de inhoudsconversie is er naar gestreefd om geen informatie verloren te laten gaan en om de gegevens op een zo 'brongetrouw' mogelijke manier over te nemen uit de publicaties. In principe is alle informatie uit de tabellen en toelichtende teksten gedigitaliseerd. De gebruiker heeft bovendien de digitale images als controlemiddel.
Na voltooiing van de data-invoer van de tabellen van de VT 1899 zijn controles op de juistheid van de gegevens in de database uitgevoerd. Belangrijkste instrument hierbij vormde het vergelijken van in de bron gegeven totalen met berekende totalen. Er kunnen zich verschillende typen van fouten voordoen:
- Invoerfouten: deze zijn gecorrigeerd. Omdat dubbel is getoetst, zijn slechts weinig data-entryfouten gevonden.
- Fouten doordat de gedrukte informatie onleesbaar is: waar mogelijk kunnen de waarden worden afgeleid uit andere gegevens in de bron. In de volkstelling van 1899 komt dit in beperkte mate voor. Deze fouten zijn gecorrigeerd.
- Bronfouten: berekende totalen kunnen afwijken van gegeven totalen door druk- of optelfouten. Controle heeft plaats gevonden door totaliseren van rijen en kolommen en vergelijking met rij-, respectievelijk kolomtotalen. Deze fouten zijn niet gecorrigeerd. Wel is er een bestand beschikbaar met een overzicht van geconstateerde bronfouten en, waar mogelijk, suggesties voor correctie.
Ook in voetnoten opgenomen aantallen personen bleken effect te hebben op ogenschijnlijke fouten. Noten bij de tabellen zijn aangebracht en gedeeltelijk herleid tot extra tabelkolommen (in sommige gevallen zijn in de oorspronkelijke publicaties weinig voorkomende getallen in voetnoten vermeld om ruimte te sparen).
Ten aanzien van de Inleiding 1899 is geprobeerd het uiterlijk van de elektronische tekst zo goed mogelijk te laten lijken op de oorspronkelijk gedrukte pagina's. Bij de lijsten en tabellen is dit principe minder strikt toegepast. Hierbij stonden twee uitgangspunten centraal: ten eerste het algemene principe dat geen informatie verloren mocht gaan en ten tweede het gebruikersgemak bij verdere verwerking (bijvoorbeeld analyse in een spreadsheet-programma). Zo zijn bijvoorbeeld tabellen en lijsten, die in het boek in kolommen waren gezet, doorgaans omgezet naar één kolom. Oplossingen werden gevonden voor herhalingen (die met aanhalingstekens waren aangegeven) en voor cellen die waren samengevoegd (accolades in de gedrukte tabellen). Voetnoten in tabellen zijn in afzonderlijke kolommen opgenomen. Verduidelijkingen en toevoegingen (bijvoorbeeld van opschriften en titels) zijn tussen teksthaken geplaatst.In de inleiding op de VT 1899 is de variëteit aan tabellen zeer groot en blijkt ook de diversiteit aan fouten groot te zijn (NB: het gaat hier om fouten die door de samenstellers van de telling van 1899 gemaakt zijn, niet om data-entry fouten!). Dit hangt ongetwijfeld samen met het feit dat in deze relatief kleine, samenvattende tabellen, zeer uiteenlopende berekeningen en bewerkingen zijn uitgevoerd. De gebruiker wordt daarom gewaarschuwd voor mogelijke verschillen tussen tellingen uit rijen of kolommen van een tabel en de overeenkomstige totaalrijen, respectievelijk totaalkolommen in die tabel. De beroepenclassificatie van 1899
Voor de classificatie van de beroepen in 1899 is aanvankelijk uitgegaan van bijlage II uit de Inleiding. Verondersteld werd dat deze classificatie alle beroepen uit de telling zou omvatten. In de classificatie worden vier hiërarchische niveaus onderscheiden. De beroepen uit deze lijst zouden worden gekoppeld aan de cijfers van de beroepstelling. Bij controles bleken echter aanzienlijke verschillen in beroepsomschrijvingen te bestaan tussen de classificatie en de formuleringen in de twaalf delen van de Beroepstelling. Hierop zijn ook de beroepsomschrijvingen uit de Beroepstelling van het Rijk als geheel gedigitaliseerd via scanning en OCR, alsmede de omschrijvingen uit bijlage III van de Inleiding. Na analyse van de verschillende lijsten is die uit het Rijksdeel van de beroepstelling genomen als groslijst voor de koppeling van de beroepenclassificatie met de cijfers in de tabellen. Toch werden tijdens de invoer nog steeds afwijkingen gevonden. Iedere afwijking van een beroepstitel die niet duidelijk een drukfout betrof, werd in het bestand geregistreerd. Op het totaal van ca. 100.000 records van de beroepstelling 1899 bleken ruim 2.500 beroepstitels niet in de groslijst voor te komen. Deze varianten zijn achteraf afzonderlijk behandeld en alsnog geklasseerd. Het resultaat is verwerkt in de beroepenclassificatie voor 1899. In een afzonderlijk bestand zijn de beslissingen met betrekking tot de beroepenclassificatie vastgelegd.
|