Изглежда, че имате няколко въпроса, така че нека се опитаме да ги разбием.
Импортиране в HDFS
Изглежда, че търсите Sqoop . Sqoop е инструмент, който ви позволява лесно да прехвърляте данни в/из HDFS и може да се свързва към различни бази данни, включително Oracle нативно. Sqoop е съвместим с тънкия драйвер на Oracle JDBC. Ето как бихте прехвърлили от Oracle към HDFS:
sqoop import --connect jdbc:oracle:[email protected]:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir
За повече информация:тук и тук . Имайте предвид, че можете също да импортирате директно в Hive таблица със Sqoop, което може да бъде удобно за извършване на вашия анализ.
Обработване
Както отбелязахте, тъй като вашите данни първоначално са релационни, е добра идея да използвате Hive, за да направите своя анализ, тъй като може да сте по-запознати със синтаксиса, подобен на SQL. Pig е по-чиста релационна алгебра и синтаксисът НЕ е подобен на SQL, по-скоро е въпрос на предпочитание, но и двата подхода трябва да работят добре.
Тъй като можете да импортирате данни в Hive директно със Sqoop, вашите данни трябва да са директно готови за обработка, след като бъдат импортирани.
В Hive можете да изпълните вашата заявка и да й кажете да запише резултатите в HDFS:
hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."
Експортиране в TeraData
Cloudera пусна миналата година конектор за Teradata за Sqoop, както е описано тук , така че трябва да погледнете, тъй като това изглежда точно това, което искате. Ето как бихте го направили:
sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output
Цялото нещо определено е изпълнимо за какъвто и период от време да пожелаете, в крайна сметка това, което ще има значение, е размерът на вашия клъстер, ако искате да го направите бързо, увеличете своя клъстер според нуждите. Хубавото на Hive и Sqoop е, че обработката ще бъде разпределена във вашия клъстер, така че имате пълен контрол върху графика.