Анонимизиране на косвени идентификатори за по-нисък риск от повторно идентифициране

Квазиидентификаторите или косвените идентификатори са лични атрибути, които са верни за дадено лице, но не непременно уникални. Примери са нечия възраст или дата на раждане, раса, заплата, образователно постижение, професия, семейно положение и пощенски код. Сравнете ги с директни, уникални идентификатори като пълното юридическо име, имейл адрес, телефонен номер, национален документ за самоличност, номер на паспорт или кредитна карта и др.

Повечето потребители вече са наясно с рисковете от споделянето на тяхната уникална, лична информация (PII). Индустрията за сигурност на данните обикновено се фокусира и върху тези директни идентификатори. Но само с пол, дата на раждане и пощенски код, 80-90% от населението на САЩ могат да бъдат идентифицирани.

Почти всеки може да бъде повторно идентифициран от иначе маскиран набор от данни, ако останат достатъчно непреки идентификатори и може да бъде присъединен към супернабор популация с подобни стойности.

Правилото за метода за експертно определяне на HIPAA, отнасящо се до защитената здравна информация (PHI) и закона на FERPA относно поверителността на студентските данни, обмислят тези опасения и изискват наборите от данни да имат статистически ниска вероятност за повторна идентификация (под 20% е стандартът днес). Тези, които желаят да използват здравни и образователни данни за изследователски и/или маркетингови цели, трябва да спазват тези закони, но също така да разчитат на демографската точност на квазиидентификаторите, за да бъдат данните ценни.

Поради тази причина задачите за маскиране на данни в продукта IRI FieldShield или IRI Voracity (платформа за управление на данни) могат да прилагат една или повече допълнителни техники за прикриване на данните, като същевременно ги поддържат достатъчно точни за изследователски или маркетингови цели. Например, функциите за размиване на числа създават произволен шум за определена възраст и периоди от време, както е описано в тази статия.

Въз основа на статията тук, този пример ще покаже как IRI Workbench може да създава и използва set файлове за анонимизиране на квазиидентификатори.

Започнете в Обобщение чрез Bucketing Съветник, достъпен от списъка с правила за защита на данните:

След като се отвори съветникът, започнете да дефинирате източника на стойностите за зададения файл, включително изходния формат и полето, изискващо обща стойност за заместване.

На следващата страница има два вида замествания на зададени файлове:Използване на set file като група и Използване на зададения файл като диапазон настроики. Този пример използва Използване на set file като група опция. Статията за замъгляването на данни демонстрира Използване на набор файлове като диапазон опция. Изградените тук набори за търсене ще бъдат използвани за псевдонимизиране на оригиналните квазиидентификатори с новата стойност за обобщение.

Тази страница е мястото, където се създават групировките между всяка от оригиналните стойности на квазиидентифициращи полета. Отляво са уникалните стойности в предварително избраното поле. Групите могат да бъдат създадени чрез плъзгане и пускане в стойностите на групата отляво или чрез ръчно въвеждане на стойности. Всяка група също се нуждае от уникална заместваща стойност. Това е стойността, която ще замени оригиналната стойност в групата. В този пример всяка стойност на „9th“ ще бъде заменена с „High School“.

Добавянето на групи, докато се покрият всички изходни стойности, създава следния файл с набор за справка за анонимизиране на квазиидентификатора на статуса на образование:

Ако са необходими допълнителни нива на групиране, съветникът за групиране може да се стартира отново, като се използва този набор файл като източник.

Когато зададеният файл се използва в задание за анонимизиране на данни, изходните данни се сравняват със стойности в първата колона на зададения файл. Ако бъде намерено съвпадение, данните се заменят със стойността във втората колона. Посоченият по-горе файл се използва в скрипта по-долу на ред 38.

Използването на Workbench за прилагане на пет различни техники за анонимизиране води до следния скрипт:

Първите десет реда от оригиналните данни са показани тук:

Анонимните резултати след изпълнение на заданието са показани тук:

Преди тези обобщения рискът от повторна идентификация въз основа на първоначалните непряко идентифициращи стойности беше твърде висок. Но когато по-обобщен набор от резултати се преработи през съветника за оценка на риска, за да се получи друго определяне на риска от повторно идентифициране, рискът е приемлив и данните все още са полезни за изследователски или маркетингови цели.

Ако имате въпроси относно тези функции или повторното оценяване на риска, свържете се с .