Обеспечение конфиденциальности выходных данных

Аналогично переписи 2011 года, в части данных таблиц были умышленно сделаны ошибки. Они являются небольшими, однако у внимательного наблюдателя они все равно способны вызывать непонимание. Целью таких ошибок является обеспечение конфиденциальности.

Никто не имеет права узнавать, каковым является чье-либо гражданское состояние, принадлежит ли его жилое помещение лицу или лицо его снимает, каковой является национальность или родной язык лица. Так как данные переписи населения и народонаселения публикуются и на уровне деревень, и в отношении совсем малых групп населения, то иногда в таблице может быть указано, что в деревне N живет один единственный мужчина возрастом 40-44 лет, и тогда вся информация, предоставить которую мужчину просили во время переписи, станет открытой для всех, кому известно, кем именно является этот мужчина из деревни N. Чтобы избежать такой ситуации, на международном уровне действует запрет на публикацию таблиц, в которых значение (частота) какой-либо ячейки составляет 1 или 2. 

Для этого можно использовать самые разные методы, каждый из которых приводит к изменению данных. Например, можно не публиковать ячейки с малой частотой, заменяя их значение символом. Однако, к сожалению, это помогает не всегда – в большинстве случаев с помощью простого приложения содержание скрытых ячеек можно вычислить на основании других ячеек.

Вторым вариантом является добавление в результаты случайной ошибки, то есть помехи. При проведении данной переписи Эстония для удаления конфиденциальных значений из таблиц использовала несколько адаптированный вариант метода cell key, или ключа ячейки. Метод ключа ячейки является разработанным Департаментом статистики Австралии и рекомендуемым Евростатом методом, который позволяет добавлять в выбранные в частотной таблице ячейки некоторое количество помех таким образом, чтобы в таблице не было конфиденциальных данных. При этом, благодаря генерированию для каждого лица случайного ключа, значения одних и тех же признаков в различных таблицах остаются одинаковыми. Так как метод ключа ячейки добавляет помехи и в другие числа, помимо конфиденциальных, и Эстония является очень маленькой страной, нам пришлось несколько адаптировать метод таким образом, чтобы большие числа (например, численность населения Эстонии) также не изменялись. Для этого мы применяли метод ключа ячейки только к городам, волостям, поселкам городского типа, поселкам сельского типа и деревням (кроме Таллинна, Тарту и Нарвы, так как они представляют собой достаточно большие города). На уровне Таллинна, Тарту, Нарвы, всех уездов и более крупных единиц в таблицах приведены оригинальные значения. Кроме того, правильной является общая численность населения каждого населенного пункта, однако к значениям по различным возрастным группам, национальным группам и другим группам народонаселения внутри каждого уезда было применено случайное рассеивание. В связи с этим может случиться так, что, например, при объединении в волости М эстонцев каждой возрастной группы будет получено число, отличающееся от общего числа проживающих в волости М эстонцев.

Тем не менее, необходимо учитывать, что во всей таблице рассеивается максимум 25% (чаще 15–20%) всех частот. Измененные числа отличаются от оригинала в среднем на 2, и 50% измененных чисел являются числами меньше 25, тогда как 25% измененных чисел являются числами меньше 5.