Database
 sql >> база данни >  >> RDS >> Database

Класификация на данните в IRI Workbench

Потребителите на инструменти за маскиране на PII като FieldShield, DarkShield и CellShield EE в IRI Data Protector Suite или Voracity платформата могат да каталогизират и търсят своите данни – и да прилагат функции за трансформация и защита на данните като правила – като използват вградени данни класификация инфраструктура в тяхната обща предна IDE, IRI Workbench, изградена на Eclipse™.   

Средствата за откриване на данни (търсене) от множество източници в IRI Workbench могат да използват класовете данни, които сте дефинирали, или могат да ви помогнат да присвоите класове данни или групи класове данни към вашите данни въз основа на вашите резултати от търсене, бизнес правила и/или онтологии на домейна.

Можете да използвате вашата библиотека с класове на данни в правила за многократна употреба (например маскиране на данни). И можете да зададете тези правила, докато автоматично класифицирате данни.

Тези функции осигуряват удобство, последователност и възможности за съответствие на архитектите на данни и екипите за управление. Вижте тази статия за пример от край до край на използване на класове данни за намиране и маскиране на данни последователно в множество таблици в RDB схеми.

Тази статия описва как можете да дефинирате тези класове. Има свързани статии за валидатори на класове данни, които могат да се използват за разграничаване и проверка на данни въз основа на търсене на шаблони.

Няколко други статии в блога на IRI обхващат приложението на класове данни в различни (предимно маскиращи данни) контексти. За пълен индекс на тези статии вижте този раздел на страницата за самообучение на софтуера IRI.

Създаване на класове данни

Класификацията започва със задаване на класове данни в Предпочитания на Workbench екран, който ви позволява да използвате класове глобално, в множество проекти във вашето работно пространство. Workbench има някои предварително заредени класове, включително използваните в този пример класове FIRST_NAME, LAST_NAME и PIN_US.

Класовете данни работят, като съпоставят (1) името на класа с името на полето, (2) шаблон с данните в полето или (3) задават съдържанието на файла спрямо данните в полето. Първият елемент се извършва автоматично за вас в процеса на класифициране, ако е избрана тази опция. Можете да добавите толкова шаблони и да зададете съвпадения на файлове, колкото са ви необходими, за всеки клас, за да върне очакваните резултати.

Въвеждането на регулярен израз като име на клас данни е допълнителен начин за съвпадение на името на колона. Например може да има колона с име LNAME или LASTNAME. Така че мога да използвам L(AST)?[_-]?NAME (долни черти и тире в скоби), за да заснемете няколко варианта на ФАМИЛИЯ.

Можете също да направите вашите класове данни и групи неактивни. Ако имате много класове, но искате да филтрирате елементите, които не се използват във вашия конкретен проект, можете да ги направите неактивни. Това ви позволява да запазите копие от тях, но да не претрупвате падащия списък, който използва тези класове.

Групи на класове данни

Можете също да имате групи класове данни. Например, включената група „NAMES“ съдържа класовете данни FIRST_NAME, LAST_NAME и FULL_NAME. Ако искате да приложите правило към множество класове, можете да използвате група, вместо да избирате класове данни поотделно.

За този пример премахнах долната черта от класа данни FIRST_NAME, за да демонстрирам опцията за съвпадение на имената на класификацията.

Съветник за източник на класификация на данни

След като съпоставителите са добавени към необходимите класове, можете да стартирате съветника за източник на класификация на данни. Помощникът приема следните формати на данни:CSV, Delimited, LDIF, ODBC или XML. Този съветник предоставя средствата за избор на източници за вашата библиотека с класове на данни за класификация по-късно.

На страницата за настройка започнете, като изберете местоположението на вашия нов „iriLibrary.dataclass ” файл, който е изходът на този съветник. Името на файла е само за четене, защото във всеки проект може да има само един от тези типове файлове. Можете също да поставите отметка в квадратчето, ако всичките ви източници са таблици в профил за връзка.

Избирането на това поле отваря страница за въвеждане като тази по-долу, където можете да изберете таблиците, които да бъдат включени:

Ако квадратчето за отметка не е избрано, можете да добавяте файлове или ODBC източници в същия екран за въвеждане. На този тип входна страница ще трябва също да добавите метаданните за всеки източник. В този пример съм включил CSV файл и две таблици на Oracle.

Ако трябва да търсите и класифицирате данни в една или повече пълни схеми на бази данни наведнъж, използвайте съветниците за търсене на шаблон на схема и търсене на шаблон на схема за асоцииране на класове данни.

Щракването върху Готово ще създаде библиотека с класове данни с включени избраните източници. Редакторът на формуляри за клас на данни, който се отваря, ще ви позволи да класифицирате данните в тези източници.

Класифициране на данните в избраните от вас източници

Започвате процеса на класификация, като щракнете върху един от източниците на данни, за да се покажат подробностите за този източник. В горната част на екрана има разширяема секция, която показва подробности за файла или таблицата.

Разделът за класификация започва с квадратче за отметка, за да включва съвпадение чрез името на полето с името на класа данни. Например, имам клас данни, наречен FIRSTNAME, и поле, наречено FIRSTNAME (съвпадението е независимо от главните букви).

В този случай процесът на класификация ще избере този клас данни за това поле, без да чете съдържанието на данните.

Следващият раздел показва таблица, съдържаща имена на полета с квадратчета за отметка, колона за класа данни и колона за съответстващите резултати. Долната таблица е визуализация на данните в източника. Необходимите класове данни трябваше да бъдат създадени, преди да използвате този редактор на формуляри, но можете да ги добавите или редактирате тук.

Можете ръчно да изберете класа данни, като щракнете върху падащото поле в колоната клас данни на полето, което искате да класифицирате. Можете също да кликнете върху Автоматично класифициране и да изберете полетата, които искате да класифицирате. Щракването върху OK ще стартира процеса на автоматична класификация, който може да отнеме много време в зависимост от количеството данни, които имате във вашия източник.

Процесът може да работи във фонов режим, ако изберете тази опция в стандартния диалогов прозорец на Eclipse, който се показва. Освен това можете да видите състоянието на процеса в изгледа на напредъка.

След приключване, класът на данните и картата на класовете данни ще бъдат създадени в библиотеката за избраните полета. В този пример процесът на класификация установи 87% съвпадение в полето за SSN, 11% за FIRSTNAME и съвпадение на името на FIRSTNAME. Процентите показват количеството съвпадащи данни във вашия източник чрез съпоставителите за този клас данни.

Ако „име“ се показва в съответстващата колона, тогава класът данни е съпоставен въз основа на името. Ако сте избрали ръчно клас данни, тогава „потребител“ ще се покаже в съответстващата колона.

Окончателното библиотечно съдържание е показано по-долу. Точно както можете да видите подробностите за източниците, можете също да щракнете върху класовете данни и картите, за да покажете техните подробности.

Картите на класовете данни използват препратки към класовете данни и полетата, което е причината библиотеката да съхранява източниците и класовете данни, в допълнение към самата карта. Изтриването на източник или клас данни ще премахне и всички свързани карти на класове данни, които препращат към изтрития елемент.

Когато щракнете върху Премахване, се показва предупреждение, което да ви напомня за това. Процесът може да се повтори на другите включени източници и допълнителни източници могат да се добавят по всяко време.

Резултатите от класификацията на тази библиотека вече могат да се използват за прилагане на полеви правила към тези източници на данни. Процесът е обяснен в следващата ми статия за Прилагане на полеви правила с използване на класификация.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Кой е най-ефективният начин за отрязване на времето от дата и час?

  2. Проучване на грешка ORA 028513 DG4ODBC

  3. 50 нюанса на NULL – Различните значения на NULL в SQL

  4. SQL Sentry вече е SentryOne

  5. Използване на AT TIME ZONE за коригиране на стар отчет