Oracle
 sql >> база данни >  >> RDS >> Oracle

Преместване на данни от oracle към HDFS, обработка и преместване към Teradata от HDFS

Изглежда, че имате няколко въпроса, така че нека се опитаме да ги разбием.

Импортиране в HDFS

Изглежда, че търсите Sqoop . Sqoop е инструмент, който ви позволява лесно да прехвърляте данни в/из HDFS и може да се свързва към различни бази данни, включително Oracle нативно. Sqoop е съвместим с тънкия драйвер на Oracle JDBC. Ето как бихте прехвърлили от Oracle към HDFS:

sqoop import --connect jdbc:oracle:[email protected]:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir

За повече информация:тук и тук . Имайте предвид, че можете също да импортирате директно в Hive таблица със Sqoop, което може да бъде удобно за извършване на вашия анализ.

Обработване

Както отбелязахте, тъй като вашите данни първоначално са релационни, е добра идея да използвате Hive, за да направите своя анализ, тъй като може да сте по-запознати със синтаксиса, подобен на SQL. Pig е по-чиста релационна алгебра и синтаксисът НЕ е подобен на SQL, по-скоро е въпрос на предпочитание, но и двата подхода трябва да работят добре.

Тъй като можете да импортирате данни в Hive директно със Sqoop, вашите данни трябва да са директно готови за обработка, след като бъдат импортирани.

В Hive можете да изпълните вашата заявка и да й кажете да запише резултатите в HDFS:

hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."

Експортиране в TeraData

Cloudera пусна миналата година конектор за Teradata за Sqoop, както е описано тук , така че трябва да погледнете, тъй като това изглежда точно това, което искате. Ето как бихте го направили:

sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output

Цялото нещо определено е изпълнимо за какъвто и период от време да пожелаете, в крайна сметка това, което ще има значение, е размерът на вашия клъстер, ако искате да го направите бързо, увеличете своя клъстер според нуждите. Хубавото на Hive и Sqoop е, че обработката ще бъде разпределена във вашия клъстер, така че имате пълен контрол върху графика.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Синтаксис на външно съединяване на Oracle

  2. Защо функцията pi() не работи в Oracle, използвайки своя JDBC драйвер?

  3. Създаване на тази таблица в oracle 10g

  4. PARTITION BY с и без KEEP в Oracle

  5. Как да създадете VARRAY като PL/SQL блоков член в базата данни на Oracle