Профилиране на данни:Откриване на подробности за данните

Профилирането на данни или откриването на данни се отнася до процеса на получаване на информация от различни източници на данни и описателна статистика за тях. Целта на профилирането на данни е да се разбере по-добре съдържанието на данните, както и тяхната структура, връзки и текущи нива на точност и интегритет.

Профилирането на данни може да разкрие грешки или неверни заключения около метаданните (данни за данни). Откриването на тези проблеми на ранен етап помага да се подобри качеството на изходните данни, преди да бъдат интегрирани или съхранявани в хранилище за данни. Разбирането на атрибутите на данните в таблицата на базата данни или извлечения файл и проверката на стойностите на данните помага да се потвърди, че съдържанието на данните действително съответства на неговата дефиниция на метаданни. Преглеждането на данните и метаданните също помага да се идентифицира кои елементи са чувствителни или съдържат лична информация (PII), така че определени колони да могат да бъдат маркирани за защитни мерки. По този начин профилирането на данни открива характеристиките на изходните данни, необходими за идентифицирането, използването и родословието на данните в интеграцията, сигурността, отчитането и други процеси, които следват.

Въпреки че събраните данни често могат да изглеждат доброкачествени или безполезни, особено когато са събрани от множество източници, имайте предвид, че всички данни могат да бъдат полезни с правилното приложение или алгоритъм. Следователно профилирането на данни е и първа стъпка за определяне на тази полезност (чрез подобряване на разбирането на самите данни).

Тъй като много фирми в крайна сметка разчитат на сурови източници на данни за вникване в неща като продуктови инвентаризации, демографски данни на клиентите, навици за купуване и прогнози за продажби, способността на компанията да се възползва конкурентно от непрекъснато нарастващия обем данни може да бъде пряко пропорционална на капацитета й да използва тези данни. активи. Печеленето/загубата на клиенти и успехът/провалът като бизнес може много добре да се определят от специфичните знания, които една организация предоставя събраните данни. По този начин идентифицирането на правилните данни, установяването на тяхната полезност на правилното ниво и определянето как да се управляват аномалии — са от съществено значение при проектирането на операции за съхранение на данни и приложения за бизнес разузнаване.

Според Дъг Вучевич и Уейн Ядоу, автори на Практикум за тестване на хранилището на данни, „...целта на профилирането на данни е както да потвърди метаданните, когато са налични, така и да открие метаданни, когато не са. Резултатът от анализа се използва както стратегически – за определяне на пригодността на изходните системи-кандидат и да даде основата за ранно решение за тръгване/не отиване, но и тактически, за идентифициране на проблемите за по-късно проектиране на решение и за изравняване на очакванията на спонсорите. ”

Органите за данни препоръчват да се извършва профилиране на данни произволно и повтарящо се върху ограничени количества данни, вместо да се опитвате да се справите с големи, сложни обеми наведнъж. По този начин откритията могат да бъдат определящи фактори за това, което следва да бъде профилирано. Идентифицирайки правилата, ограниченията и предпоставките за данни, гарантирайте целостта на метаданните, върху които се извършва бъдещо профилиране. Знаейки какво се предполага да бъде в определени файлове с данни и какво е всъщност може да няма същото нещо. Така че винаги, когато качеството или характеристиките на нов източник са неизвестни, експертите предлагат първо профилиране на данни, преди каквото и да е интегриране в съществуваща система.

Стъпките в процеса на профилиране на данни включват: импортиране на всички обекти, създаване на конфигурационни параметри, извършване на действителното профилиране и анализиране на резултатите; нито едно от тях не е толкова лесно, колкото звучи! След това въз основа на констатациите могат да бъдат приложени корекции на схема и данни, както и други фини настройки за последващо подобряване на производителността на профилиране на данни.

Инструменти за профилиране на IRI

В средата на 2015 г. IRI пусна серия от безплатни бази данни, структурирани и неструктурирани (тъмни) инструменти за откриване на данни в своя графичен интерфейс на Eclipse, IRI Workbench. Те са обобщени на https://www.iri.com/products/workbench/discover-data и връзки към други статии в този блог които са по-подробни.