Documentatie

Algemeen

De digitalisering van de volkstellingen heeft sinds 1997 verspreid over een periode van zeven jaren plaatsgevonden in het kader van drie projecten. Het werk werd uitgevoerd door verschillende personen, instellingen en bedrijven, waarbij de aanpak niet steeds dezelfde was. Omdat er bovendien sprake is van verschillende soorten materiaal (tabellen, inleidende teksten, bijlagen en toelichtingen, lijsten, grafieken en kaarten, individuele basisbestanden) en zich ontwikkelende ideeën en mogelijkheden van digitale toegankelijkstelling, heeft niet alle informatie hetzelfde uiterlijk en dezelfde beschikbaarheid.

Daarenboven is het digitaliseringsproject van de volkstellingen nog niet voltooid; deze website zal gedurende het jaar 2005 verder worden aangevuld en de toegang tot de informatie zal nog verbeteren. De controle en correctie van de gegevens is nog niet gereed, evenmin als de documentatie. Volgens schema zal de digitalisering van de volkstellingen in het kader van het project Life Courses in Context eind 2005 worden afgerond.

Parallel aan dit project wordt gewerkt aan een historisch-geografisch informatiesysteem voor Nederland, dat het mogelijk zal maken om de data van de volkstellingen te visualiseren op kaartmateriaal. Voor dat project worden onder andere kaarten gedigitaliseerd met alle buurt- en wijkgrenzen (voor landelijk gebied ook buurtschappen, gehuchten, etc.).

Eerste project
De digitalisering van de volkstellingen is in 1997 begonnen met de scanning van de ca. 200 banden met in totaal ruim 42.000 pagina’s, waarin de volkstellingen tussen 1795 en 1971 zijn gepubliceerd. Ook heeft toen de data-invoer plaatsgevonden van de volkstelling van 1899 (ca. 10.000 pagina’s; de inleiding is met optische tekenherkenning geconverteerd). De resultaten van dat eerste project werden gepubliceerd in 1999 op twee sets CD-ROM’s en op het Internet. De gegevensinvoer is deels uitgevoerd door de data-entry afdeling van het CBS, deels door IVA data entry services (thans Cendris). Meer uitvoerige informatie over dit project vindt u hier.

Tweede project
In het kader van een tweede project, dat uitgevoerd werd van januari 2002 tot maart 2004 is de digitale publicatie voorbereid van de tellingen van 1795, 1829, 1839, 1849, 1859, 1930, 1960 en 1971. Het materiaal van voor 1960 was voor een deel al eerder ingevoerd door het CBS en voor een deel is dat tijdens het project gebeurd. In totaal betrof het hier ook enkele duizenden pagina’s aan tabellen. Controle en correctie van de ingevoerde data was een belangrijk element van dit project. Maar ook werden de bewaard gebleven oorspronkelijke databestanden op individueel niveau van de volkstellingen van 1960 en 1971 digitaal gedocumenteerd. Ook over dit project vindt u elders op deze website meer informatie. De databestanden van 1960 en 1971 zijn On Site bij het Centraal Bureau voor de Statistiek (CBS) te raadplegen. Meer informatie hierover vindt u op de betreffende webpagina.

Derde project: Life Courses in Context
In het project Life Courses in Context tenslotte werden de resterende tellingen van 1869, 1879, 1889, 1909, 1919/20, 1947 en 1956 ingevoerd, deels door medewerkers van het NIWI en deels door data-entry bureau's (Service Profs en P2D). De tekstgedeelten van de tellingen zijn met behulp van optische tekenherkenning geconverteerd, evenals de cijfers over 1947 en 1956. De totale hoeveelheid geconverteerde pagina’s in dit laatste gedeelte bedroeg ongeveer 20.000 pagina’s. Het werk werd uitgevoerd tussen maart 2003 en november 2004. Ook over het levenslopen-project is elders meer informatie te vinden.

Gedigitaliseerde tellingen en pagina’s in het kader van Life Courses in Context

Jaar Pagina's Uitvoerder
1869 888 NIWI
1879 2268 NIWI
1889 10097 Service Profs
1909 3572 NIWI/Service Profs
1919 175 NIWI
1920 1903 Service Profs
1930 70 NIWI
1947 1430 Belfast/P2D
1956 345 Belfast/P2D

Er waren in totaal ruim 20.000 pagina’s te digitaliseren over 9 censusjaren. De helft hiervan betrof de telling van 1889. De kleinere tellingen zijn voor een belangrijk deel door het NIWI ingevoerd.

Ca. 10% van het materiaal is met behulp van scanning en OCR verwerkt; het betreft zowel het tekstuele materiaal als de kleinere tabellen (staten e.d. van max. 1 pagina). Van het tekstuele materiaal (inleidingen e.d.) worden PDF’s gemaakt.

Richtlijnen voor de gegevensinvoer
De data-entry voor het laatste gedeelte van de digitalisering van de volkstellingen gebeurde met behulp van het spreadsheet-programma Excel. Door medewerkers van het NIWI werden sjablonen voor de invoer gemaakt, die zoveel mogelijk leken op de gepubliceerde tabellen in de boeken. Per tabel is in het algemeen één spreadsheet gemaakt. Veelal is per provincie de opzet van de tabellen steeds hetzelfde. Meestal vormen de spreadsheets per provincie zogenaamde "tabbladen" in één Excel-bestand. Het invoeren van overeenkomstige gegevens, die in verschillende tabellen zijn gepubliceerd, is zoveel mogelijk vermeden.

Een tabel bestaat uit rijen en kolommen. Er zijn echter ook andere onderdelen, die niet direct in die structuur passen:

Tabeltitels: deze zijn al opgenomen in het sjabloon.
Tussenkopjes, zoals de naam van een provincie of beroepsgroep: deze wordt eenmaal in een kolom ingevoerd en pas opnieuw als de naam wijzigt. Waar de kopjes repeteren, is gebruik gemaakt van een verkorte weergave of codering. Dit is bij de instructies per tabel aangegeven.
Franse of Engelse beschrijvingen: deze worden niet ingevoerd.
(Voet)noten: hierbij doen zich verschillende mogelijkheden voor, waarvoor afzonderlijke instructies zijn gemaakt. De noten zijn soms als hyperlinks op een apart tabblad, soms in een afzonderlijke kolom of onder de tabel opgenomen. En bij de volkstelling van 1859 zijn de voetnoten op een aparte excel-spreadsheet toegevoegd.

De eigenlijke tabel bestaat uit de feitelijke inhoud (de cijfers). De kolommen hebben opschriften en de rijen worden beschreven in de “voorkolom”.

Tabelopschriften: deze zijn al opgenomen in het Excel-sjabloon dat door NIWI-medewerkers is voorbereid.
Voorkolom: dit is één van de meer ingewikkelde kwesties, omdat de voorkolom vaak een hiërarchische structuur bevat. Voor deze hiërarchische indeling is per (type) tabel een voorschrift opgesteld. In principe is de voorkolom ingevoerd. In sommige gevallen kon de voorkolom uit een al eerder ingevoerde tabel worden gekopieerd en hergebruikt worden voor later in te voeren tabellen (bijvoorbeeld: indeling in gemeenten).
Lege cellen: in de gedrukte tabellen zijn “lege cellen” (met de waarde nul) op verschillende wijzen weergegeven. Veel voorkomende gevallen zijn: (blanco), een liggend streepje (-) of een apostrof (“). Lege cellen zijn in de database/spreadsheet blanco gelaten.
Onleesbare informatie: sommige getallen zijn onleesbaar. Dit komt vooral voor in de middelste kolom van de boeken, waarbij cijfers zijn weggevallen in de band. Ook beschadigingen kunnen dit effect hebben. Beschadigde pagina’s worden direct gemeld aan het NIWI en niet ingevoerd. Het NIWI zoekt dan naar beter leesbare exemplaren van de boeken in andere bibliotheken.

Incidenteel voorkomende onleesbare cijfers zijn in een commentaarveld vermeld met het teken # of volgens nadere afspraken gemarkeerd.

Metadata: aan het eind rechts van iedere tabel zijn per regel meta-gegevens opgenomen die verwijzen naar de telling, jaar, deel tabelnummer, paginanummers, provincie en image nummers.

Telling	Soort telling: VT (Volkstelling), BT (Beroepstelling) of WT (Woningtelling)
Tabel	Samengesteld nummer dat verwijst naar het jaar van de telling, het deel (band, volume) en het onderdeel (H voor Hoofdstuk, T voor Tabel), bijvoorbeeld VT 1869_01_H1 betekent de Volkstelling 1869, deel 1, Hoofdstuk 1
Pagina links/rechts	de paginanummers van de oorspronkelijke bron; meestal beslaat een tabel een dubbele bladzijde
Provincie	tweelettercode voor de provincies
Image nr	verwijzing naar de bestandsnaam van de scans van de volkstellingen zoals in 1999 gepubliceerd op CD-ROM

Totalen, subtotalen en andere berekende waarden (zoals percentages) die in kolommen staan, zijn berekend door een formule in Excel. De data-entry medewerkers controleren of de berekende aantallen kloppen met de gedrukte getallen. Bij afwijkingen zijn er twee mogelijkheden:

Er is een typfout gemaakt. Deze is meteen gecorrigeerd.
Er is een reken/zetfout gemaakt in de publicatie; in dit geval is het gedrukte getal in een Excel-commentaar opgenomen bij het betreffende totaal.
Eén of meer getallen, die deel uitmaken van de berekening, zijn onleesbaar in de publicatie. In dit geval is het gedrukte getal eveneens in een commentaar opgenomen. Indien een onleesbaar getal kon worden berekend uit gedrukte en berekende totalen, is dit onmiddellijk gedaan en ingevuld op de plaats van het onleesbare getal.

Totalen, subtotalen en andere berekende waarden (zoals percentages) die in rijen voorkomen zijn meestal met de hand ingevoerd. Deze totalen zijn gebruikt voor controles van de data-entry achteraf. Voor sommige gevallen zijn door NIWI Excel-macro’s gemaakt om deze totalen direct te berekenen.

Samengevoegde cellen: in sommige tabellen komt het voor dat gegevens uit twee of meer cellen zijn samengevoegd: er is dan een totaal voor een aantal cellen gegeven. In de gedrukte tabellen zijn de samengevoegde cellen meestal aangegeven met een accolade. In de spreadsheets wordt de waarde van de samengevoegde cellen ingevoerd in de bovenste of meest linkse cel. De cellen waarvoor het aantal geldt zijn gemarkeerd met een accolade ({) of met een commentaar bij de cel.

Bijzonderheden: sommige tabellen eindigen met een pagina met bijzonderheden, bijvoorbeeld met een lijst van gemeenten waarin het onderwerp waarover de tabel gaat niet is aangetroffen (gemeenten zonder doofstommen, blinden of werklozen). Deze informatie wordt niet ingevoerd. De gegevens voor de betreffende gemeenten zijn eenvoudig nul (blanco).

HGIN projectvoorstel [pdf] (1037 KB)