Rahvaloendusega kogutud elamistingimuste andmete avaldamiseni on jäänud

Väljundandmete konfidentsiaalsuse tagamine

Sarnaselt 2011. aasta loendusega on osa tabelite andmetesse tehtud meelega vead – tõsi küll, väiksed, kuid tähelepanelikus vaatlejas siiski arusaamatust tekitavad. Seda selleks, et tagada üksikisikute konfidentsiaalsus.

Kellelgi ei ole õigust teada saada, missugune on kellegi perekonnaseis, kas tema eluruum kuulub talle endale või üürib ta seda, mis rahvusest keegi on või mis keel on tema emakeel. Et rahvaloenduse ja rahvastiku andmeid avaldatakse ka külade tasemel ja kitsastes rahvastikurühmades, võib mõnda tabelisse sattuda, et N külas on üksainus 40–44-aastane mees ja kõik, mida selle mehe kohta loendusel on küsitud, saab avalikuks kõigile, kes teavad, kes see N küla mees on. Et seda olukorda vältida, on rahvusvaheliselt keelatud avaldada tabeleid, milles mõne lahtri väärtus (sagedus) on 1 või 2.

Sellise olukorra vältimiseks võib kasutada mitmesuguseid meetodeid, mis kõik andmestikku muudavad. Üks võimalus on väikese sagedusega lahtreid mitte avaldada, asendades nende väärtuse sümboliga. Kahjuks see alati ei aita – enamasti on lihtsa rehkendusega võimalik teiste lahtrite põhjal peidetud lahtri sisu välja arvutada.

Teine variant on lisada tulemustele juurde juhuslik viga ehk müra. Sel loendusel rakendas Eesti konfidentsiaalsete väärtuste tabelitest eemaldamiseks veidi kohandatud varianti cell key ehk lahtri võtme meetodit. Lahtri võtme meetod on Eurostati soovitatud ja Austraalia statistikaameti välja töötatud meetod, mis lisab sagedustabelis valitud lahtritesse vähesel määral müra nii, et tabelis ei oleks konfidentsiaalseid väärtusi, kuid tänu sellele, et igale isikule genereeritakse juhuslik võti, on tagatud, et samade tunnuste väärtused eri tabelites on samad. Kuna lahtri võtme meetod lisab müra ka teistele arvudele peale konfidentsiaalsete ning Eesti on väga väike riik, pidime meetodit veidi kohandama, et ka suured arvud (näiteks Eesti rahvaarv) ei muutuks. Selleks rakendasime lahtri võtme meetodit ainult linnadele, valdadele, alevitele, alevikele ja küladele (v.a Tallinn, Tartu ja Narva, sest need on piisavalt suured linnad). Tallinna, Tartu, Narva, kõigi maakondade ja suuremate üksuste tasemel on tabelites originaalväärtused. Samuti on õige iga asula kogurahvaarv, kuid maakonna sees on eri vanuserühmades, rahvusgruppides ja teistes rahvastikurühmades väärtused juhuslikult hajutatud. Seetõttu võib juhtuda, et kui liita kokku näiteks M valla iga vanuserühma eestlaste arv, siis saadakse sellest arvust, mis tabelis M vallas elavate eestlaste kohta näitab, erinev arv.

Siiski tasub arvestada, et kogu tabelis hajutatakse kõige rohkem 25% (tihemini 15–20%) kõikidest sagedustest. Muudetud numbrid erinevad originaalist keskmiselt 2 võrra ning 50% muudetud arvudest on väiksemad kui 25, samal ajal kui 25% muudetud arvudest on väiksemad kui 5.