Въведение в профилирането на данни
Профилиране на данни е процесът на систематично документиране на дизайна и съдържанието на данни във файл, таблица или схема. Профилиране на данни е важна първа стъпка, предприета, когато един склад за данни е в етапите на планиране. Важно е архитектите и дизайнерите на хранилища за данни да разберат качеството и цялостната природа на данните за основните операционни системи, преди да предприемат голям проект за съхранение на данни. Някои специфични аспекти на изходните данни, които профилирането може да разкрие, включват:
- Общият размер (в байтове) на всяка изходна таблица или файл, включително подробности за типа данни на всяко поле/колона.
- Брои, средни стойности, диапазони и съществуване на нулеви стойности за всяка колона.
- Връзки между колоните с данни в таблици (като функционални зависимости).
- Връзки между таблици (като връзки с външни ключове).
Резултатите от етапа на профилиране на данни могат допълнително да се използват за разработване на правила за проверка на качеството на данните и правила за коригиране на проблеми с данните по време на първите етапи на ETL тръбопровод.
Oracle Warehouse Builder предоставя мощно средство за профилиране на данни, което може да се използва, за да научите в много подробности обхвата и характеристиките на данните в схема. Официалната документация на OWB за профилирането на данни може да бъде намерена на тази връзка. Oracle Warehouse Builder е инсталиран заедно със стандартните и Enterprise версии на Oracle 11g Database. Ето някои инструкции за инсталиране на Oracle 11g Release 2 на Windows.
Ако имате централен сървър на Oracle 11g, можете да използвате Oracle Warehouse Builder Client за достъп до това централно хранилище.
В тази демонстрация са представени основните стъпки, необходими за профилиране на OLTP системна схема. Целевата схема ще бъде схемата на Oracle „Order Entry“ (OE), която може да бъде инсталирана и активирана в бази данни Oracle 11g. Имайте предвид, че потребителят на Oracle Warehouse трябва да има достъп (идентификационни данни) до OE схемата, за да настрои подходящия модул в OWB.
Първата основна стъпка в профилирането е да се създаде модул, който сочи към схемата на изходната база данни. OWB поддържа голям брой източници на бази данни, както и плоски (текстови) файлове.
Създаване на нов модул за схемата за въвеждане на поръчки
В този набор от стъпки схемата за въвеждане на поръчка (OE) ще бъде създадена като нов модул в Oracle Warehouse Builder.
- Започнете, като влезете в Oracle Warehouse Builder. Отворете прозореца на Project Navigator и след това отворете MY_PROJECT
Отворете Бази данни папка и след това Oracle папка.
Щракнете с десния бутон върху Oracle папка и изберете Нов модул на Oracle както е показано по-долу:
- Когато се появи екранът за добре дошли, щракнете върху Напред> бутон
- Предоставете ново име и описание за базата данни. Имайте предвид, че не можете да използвате интервали в името на базата данни.
Щракнете върху Напред> бутон за продължаване.
- Следващата основна стъпка ще бъде да посочите местоположението на базата данни. Повече от вероятно това е първият път, когато преминавате през тези стъпки и така местоположението на Oracle OE Schema не е зададено. В този случай щракнете върху Редактиране... бутон, показан до Местоположение подкана
- Попълнете името, описанието и информацията за връзката (име на хост, потребителско име, парола, номер на порт, име на услугата Oracle и т.н.) Щракнете върху OK бутон, когато приключите.
- Потвърдете информацията за връзката и щракнете върху опцията за Импортиране след приключване .
След това щракнете върху Напред> бутон за продължаване:
- Ще се появи окончателният екран с обобщение, показващ, че създаването на модула е било успешно.
Щракнете върху Край бутон, за да затворите този екран.
Импортиране на метаданни за схемата за въвеждане на поръчка
- Като поставите отметка в Импортиране след завършване опция в стъпка 6, Съветникът за импортиране на метаданни ще стартира автоматично, след като модулът на базата данни бъде създаден. Ако сте пропуснали тази опция, щракнете с десния бутон върху новия модул Order_Entry и изберете Импортиране на метаданни от менюто.
След като се стартира съветникът за импортиране на метаданни, щракнете върху Напред> бутон за продължаване.
- Информацията за филтъра екранът ще се появи следващият. В този случай искаме да импортираме метаданни за цялото съдържание на схемата, така че щракнете върху Всички опция и след това щракнете върху Напред> бутон за продължаване.
- Следващият екран, който се показва, предлага възможност за избор на някои или всички обекти, открити в схемата. Първоначално Избор на обект екранът ще се появи, както следва:
- Щракнете върху иконата на двойната стрелка надясно, за да преместите всички обекти от Налични страна на Избрани страна, както е показано по-долу. След това щракнете върху Напред> бутон за продължаване.
- Резюме и импортиране екранът ще се появи следващият. Прегледайте екрана, за да се уверите, че всички обекти са избрани и щракнете върху Край бутон, за да завършите импортирането.
- Резултати от импортиране ще се появи екран с обобщение. Щракнете върху OK бутон, за да го затворите.
- В навигатора за проекти на Oracle Warehouse Builder базата данни ORDER_ENTRY ще бъде попълнена с всички нейни обекти, включително таблиците, както е показано по-долу:
В този момент е създаден нов модул на база данни за схемата на базата данни Oracle Order Entry и всички метаданни на схемата са импортирани в Oracle Warehouse Builder. В следващия набор от стъпки, нов Профил на данни ще бъде създаден.
Създаване на профил на данни в Oracle Warehouse Builder
Следващата важна стъпка е да създадете профил на данни .
- В навигатора за проекти на Oracle Warehouse Builder щракнете с десния бутон върху Профили на данни група и изберете Нов профил на данни
- Когато се появи екранът за добре дошли, щракнете върху Напред> бутон
- Посочете име и описание на новия профил на данни. В този пример наименувахме новия профил:Order_Entry_Schema_Profile (обърнете внимание, че интервалите не са разрешени в името на профила). Щракнете върху Напред> бутон за продължаване.
- Следващият екран предоставя списък с обекти на схема. Отворете Таблиците папка и добавете всички таблици (с изключение на PURCHASEORDER таблица) в списъка под базата данни за въвеждане на поръчки до Избрани страна на екрана.
Не добавяйте нито един от изгледите.
Щракнете върху Напред> бутон за продължаване.
- В този момент Резюме ще се появи екран и профилът за данни е настроен. Щракнете върху Край бутон.
- След като новият профил е настроен, Редакторът на профили с данни ще се появи екран.
Следващата стъпка ще бъде да стартирате профайлъра на схемата.
Работа с редактора на профили в Oracle Warehouse Builder
Последната основна стъпка е да работите в редактора на профили, за да започнете работа за профилиране на данни и след това да видите резултатите. Ако сте следвали предишните стъпки, за да създадете нов профил на данни, тогава OWB би трябвало да е стартирал Редактор на профили на данни . Всички инструкции от този момент предполагат, че работим в редактора на профили на данни.
- По-долу е изглед на редактора на профили на данни. Имайте предвид, че модулът на базата данни ORDER_ENTRY се отваря в Профилни обекти прозорец и всички таблици трябва да бъдат изброени тук.
- Можете да правите промени в стъпките за профилиране от секциите на Property Inspector, като например Зареждане на конфигурация и Конфигурация на агрегиране . Описания на тези настройки можете да намерите на тази връзка.
За този пример се уверете, че са избрани следните настройки по подразбиране за профилиране:- Активиране на откриването на общ формат
- Активиране на откриването на тип
- Активиране на откриването на шаблон
- Активиране на откриване на домейн
- Активирайте откриването на уникални ключове
- Активиране на откриването на функционална зависимост
- Активирайте откриването на излишни колони
- Активиране на профилиране на правила за данни
- За да започнете заданието за профилиране на данни, издърпайте надолу Профила меню и изберете Профил
- След като заданието за профил бъде стартирано, ще се появи диалогов прозорец, показващ напредъка по валидирането на профила. Това може да отнеме няколко минути в зависимост от скоростта на сървъра и броя на обектите на базата данни в профила.
- Когато стъпката за валидиране е завършена, ще се изпълни действителното задание за профил. Имайте предвид, че това задание се изпълнява асинхронно във фонов режим. Щракнете върху OK бутон, за да затворите Профилът е иницииран диалогов прозорец.
- След като задачата за профил приключи, Извличане на резултатите от профила ще се появи екран. Щракнете върху Да за да извлечете резултатите от профила в редактора на профили.
- Резултатите от профила ще се покажат в редактора на профили. Щракнете върху името на таблица, за да видите метаданните в Профилни резултати Канвас . Кликнете върху името на колона, за да видите спецификата на колона в Панела за анализиране на данни
На фигурата по-долу (щракнете за по-голямо изображение) КЛИЕНТИ таблицата е избрана за преглед в платното с резултати от профили и NLS_TERRITORY колоната е избрана за преглед в панела за анализиране на данни.
Повече информация за профилирането на данни на Oracle OWB
В допълнение към документацията, Oracle предоставя и серия от уроци за Oracle By Example (OBE) за OWB, включително:Oracle Warehouse Builder:Проучване на изходните данни с помощта на профилиране на данни.