Database
 sql >> база данни >  >> RDS >> Database

Разтоварване на много големи бази данни

Една от основните притеснения на DBA, които трябва да разтоварват големи данни от таблици с много голяма база данни (VLDB), е скоростта. По-бързото разтоварване прави данните достъпни в различни форми за различни цели и платформи. Колкото по-бързо се получават тези данни, толкова по-бързо могат да бъдат обработени и доставени. Крайният резултат е по-бързо време за вземане на решение и по този начин производителността и конкурентоспособността на компаниите, които печелят пари от информация.

Повечето от наличните инструменти и методи, използвани в момента за извличане на данни от големи таблици с факти, са просто твърде бавни. Тези, които претендират да са по-бързи, са сложни, патентовани или изискват закупуване на скъп ETL пакет. Преминаването към парадигма ELT или Hadoop включва големи разходи за хардуер (или DB устройство), облага с данъци основната DB, която сега се трансформира, и налага стръмни криви на обучение и тежести за поддръжка.

Няма ли други опции за разтоварване и процеси надолу по веригата, които са по-бързи, по-прости и по-достъпни?

Защо да разтоварите VLDB таблици?

Има много причини, поради които трябва да разтоварите групово данни от тези таблици на първо място:

Миграция на база данни :Колкото по-бързо можете да извлечете данни от наследената(ите) база(и), толкова по-бързо можете да картографирате и преместите данните в новата(ите) база(и). Преместването на групови данни би било от полза ако обемите на данни са огромни, има полза за офлайн трансформацията, защитата и/или анализа (което е възможно наведнъж в IRI CoSort) и когато предварително сортираните насипни товари са единственият начин да се отговори Срокове за SLA.

Реорганизация на базата данни :Разтоварване, сортиране, повторно зареждане, за да поддържа ефективната работа на базата данни и оптимизиране на общите заявки, като поддържате таблиците в ред на присъединяване. Разтоварването се извършва при офлайн или външни реорганизации. Вижте това сравнение за офлайн и он-лайн методи за реорганизация.

Интегриране на данни :Широкомащабните операции за извличане-преобразуване-натоварване на DW (ETL) започват с извличане на таблици в зоната за преобразуване на данни. Данните, изхвърлени от таблици и смесени с мейнфрейм набори от данни, уеб регистрационни файлове и други плоски файлове, могат най-ефективно да бъдат интегрирани и обработени във файловата система. Външните трансформации чрез  са не само по-ефективни, защото множество действия могат да бъдат извършени в един I/O проход, но и защото изчислителните разходи за цялата тази работа се премахват от базата данни (вижте ETL срещу ELT).

Репликация/архив на данни :Чрез разтоварване на таблици с факти, оперативните данни от златен източник могат да бъдат дублирани и съхранявани в преносим формат. Данните в плоски файлове могат да бъдат запитвани, манипулирани и преформатирани с инструменти като IRI NextForm или CoSort и да се използват за попълване на други бази данни и приложения. По същия начин, достъпно хранилище на тези данни може също да се съхранява офлайн за възстановяване и извличане на резервно копие или разпространение до страни, които се нуждаят от достъп до данните в различна среда.

Бизнес разузнаване :Може да бъде по-бързо и по-лесно да импортирате оперативни данни в Excel и други BI инструменти в плоски файлови формати като CSV и XML, вместо да се опитвате да свързвате таблицата с електронна таблица или BI куб. Следователно разтоварването на таблици в плоски файлове е първоначална и ефективна стъпка във франчайзинга на данни – подготовката на данни за BI операции.

Поглед към методите за разтоварване

Методите за извличане на VLDB се различават по производителност и функционалност. Добрата помощна програма за разтоварване на големи данни от Oracle и други големи БД трябва да бъде ефективна, лесна за използване и да поддържа определени функции за преформатиране, които не биха натоварили процеса.

Командата SQL SPOOL може да изхвърли данни в плосък файл, но обикновено е бавна по обем. Естествените помощни програми като експортирането или изпомпването на данни на Oracle са по-бързи, но произвеждат собствени извлечения, които могат да бъдат импортирани само в същата база данни и не могат да бъдат анализирани както би бил плоския файл.

Ако трябва бързо да разтоварите големи таблици в преносими плоски файлове, помислете за IRI FACT (Бързо извличане) за Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero и т.н. FACT използва паралелизъм и протоколи за свързване на собствена база данни (като Oracle OCI ) за оптимизиране на производителността на извличане. Безплатният FACT GUI (съветник), който е част от IRI Workbench, изграден върху Eclipse™, представя налични таблици и колони за извличане и използва синтаксис на SQL SELECT.

Друга полза от използването на FACT е интегрирането на метаданни с програмата SortCL в IRI Voracity за трансформиране, защита, насочване и дори отчитане на извлечените от плосък файл. FACT също така създава контролния файл на помощната програма за групово зареждане на базата данни в очакване на повторно попълване на същата таблица, използвайки предварително CoSorted плоски файлове в широкомащабни ETL или reorg операции.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Как да използвам клауза ORDER BY в SQL?

  2. Оттеглени функции, които да извадите от кутията си с инструменти – част 3

  3. SQL Право присъединяване

  4. Релационният модел

  5. 911/112:Модел на данни за услугата за спешни повиквания