Една от основните притеснения на DBA, които трябва да разтоварват големи данни от таблици с много голяма база данни (VLDB), е скоростта. По-бързото разтоварване прави данните достъпни в различни форми за различни цели и платформи. Колкото по-бързо се получават тези данни, толкова по-бързо могат да бъдат обработени и доставени. Крайният резултат е по-бързо време за вземане на решение и по този начин производителността и конкурентоспособността на компаниите, които печелят пари от информация.
Повечето от наличните инструменти и методи, използвани в момента за извличане на данни от големи таблици с факти, са просто твърде бавни. Тези, които претендират да са по-бързи, са сложни, патентовани или изискват закупуване на скъп ETL пакет. Преминаването към парадигма ELT или Hadoop включва големи разходи за хардуер (или DB устройство), облага с данъци основната DB, която сега се трансформира, и налага стръмни криви на обучение и тежести за поддръжка.
Няма ли други опции за разтоварване и процеси надолу по веригата, които са по-бързи, по-прости и по-достъпни?
Защо да разтоварите VLDB таблици?
Има много причини, поради които трябва да разтоварите групово данни от тези таблици на първо място:
Миграция на база данни :Колкото по-бързо можете да извлечете данни от наследената(ите) база(и), толкова по-бързо можете да картографирате и преместите данните в новата(ите) база(и). Преместването на групови данни би било от полза ако обемите на данни са огромни, има полза за офлайн трансформацията, защитата и/или анализа (което е възможно наведнъж в IRI CoSort) и когато предварително сортираните насипни товари са единственият начин да се отговори Срокове за SLA.
Реорганизация на базата данни :Разтоварване, сортиране, повторно зареждане, за да поддържа ефективната работа на базата данни и оптимизиране на общите заявки, като поддържате таблиците в ред на присъединяване. Разтоварването се извършва при офлайн или външни реорганизации. Вижте това сравнение за офлайн и он-лайн методи за реорганизация.
Интегриране на данни :Широкомащабните операции за извличане-преобразуване-натоварване на DW (ETL) започват с извличане на таблици в зоната за преобразуване на данни. Данните, изхвърлени от таблици и смесени с мейнфрейм набори от данни, уеб регистрационни файлове и други плоски файлове, могат най-ефективно да бъдат интегрирани и обработени във файловата система. Външните трансформации чрез са не само по-ефективни, защото множество действия могат да бъдат извършени в един I/O проход, но и защото изчислителните разходи за цялата тази работа се премахват от базата данни (вижте ETL срещу ELT).
Репликация/архив на данни :Чрез разтоварване на таблици с факти, оперативните данни от златен източник могат да бъдат дублирани и съхранявани в преносим формат. Данните в плоски файлове могат да бъдат запитвани, манипулирани и преформатирани с инструменти като IRI NextForm или CoSort и да се използват за попълване на други бази данни и приложения. По същия начин, достъпно хранилище на тези данни може също да се съхранява офлайн за възстановяване и извличане на резервно копие или разпространение до страни, които се нуждаят от достъп до данните в различна среда.
Бизнес разузнаване :Може да бъде по-бързо и по-лесно да импортирате оперативни данни в Excel и други BI инструменти в плоски файлови формати като CSV и XML, вместо да се опитвате да свързвате таблицата с електронна таблица или BI куб. Следователно разтоварването на таблици в плоски файлове е първоначална и ефективна стъпка във франчайзинга на данни – подготовката на данни за BI операции.
Поглед към методите за разтоварване
Методите за извличане на VLDB се различават по производителност и функционалност. Добрата помощна програма за разтоварване на големи данни от Oracle и други големи БД трябва да бъде ефективна, лесна за използване и да поддържа определени функции за преформатиране, които не биха натоварили процеса.
Командата SQL SPOOL може да изхвърли данни в плосък файл, но обикновено е бавна по обем. Естествените помощни програми като експортирането или изпомпването на данни на Oracle са по-бързи, но произвеждат собствени извлечения, които могат да бъдат импортирани само в същата база данни и не могат да бъдат анализирани както би бил плоския файл.
Ако трябва бързо да разтоварите големи таблици в преносими плоски файлове, помислете за IRI FACT (Бързо извличане) за Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero и т.н. FACT използва паралелизъм и протоколи за свързване на собствена база данни (като Oracle OCI ) за оптимизиране на производителността на извличане. Безплатният FACT GUI (съветник), който е част от IRI Workbench, изграден върху Eclipse™, представя налични таблици и колони за извличане и използва синтаксис на SQL SELECT.
Друга полза от използването на FACT е интегрирането на метаданни с програмата SortCL в IRI Voracity за трансформиране, защита, насочване и дори отчитане на извлечените от плосък файл. FACT също така създава контролния файл на помощната програма за групово зареждане на базата данни в очакване на повторно попълване на същата таблица, използвайки предварително CoSorted плоски файлове в широкомащабни ETL или reorg операции.