HBase
 sql >> база данни >  >> NoSQL >> HBase

Разлика между InputSplit срещу блокове в Hadoop

В този урок за MapReduce ще обсъдим сравнението между MapReduce InputSplit срещу Blocks вHadoop . Първо, ще видим какво представляват HDFS блокове данни до това какво е Hadoop InputSplit.

Тогава ще видим разликата по отношение на функциите между InputSplit срещу Blocks. Най-накрая ще обсъдим и примера за Hadoop InputSplit и блокове данни в HDFS.

Въведение във InputSplit и блокове в Hadoop

Нека първо обсъдим какво представляват HDFS Data Blocks и какво е Hadoop InputSplit един по един.

1. Какво е блок в HDFS?

Hadoop HDFS разделяне на големите файлове на малки парчета, известни като блокове. Той съдържа минимално количество данни, които могат да се четат или записват. HDFS съхранява всеки файл като блокове.

Приложението Hadoop разпределя блока от данни между множество възли. HDFS клиентът няма контрол върху блока, като местоположението на блока, Namenode решава всички подобни неща.

2. Какво е InputSplit в Hadoop?

Представлява данните кой отделна маппера процеси. По този начин броят на картографските задачи е равен на броя на InputSplits. Framework разделя разделяне на записи, които картографират обработващи.

Първоначално входните файлове съхраняват данните за заданието MapReduce. Въвеждането на файл обикновено се намира във HDFS InputFormat описва как да разделяте и четете входни файлове. InputFormat е отговорен за създаването на InputSplit.

Сравнение между InputSplit срещу Blocks в Hadoop

Нека сега да обсъдим разликата по отношение на функциите между InputSplit срещу Blocks в Hadoop Framework.

1. Представяне на данни

  • Блокиране –  HDFS Block е физическото представяне на данни в Hadoop.
  • InputSplit –  MapReduce InputSplit е логическото представяне на данни, присъстващи в блока в Hadoop. Основно се използва по време на обработка на данни в програмата MapReduce или други техники за обработка. Основното нещо, на което трябва да се съсредоточите, е, че InputSplit не съдържа действителни данни; това е просто препратка към данните.

2. Размер

  • Блокиране –  По подразбиране размерът на HDFS блока е 128MB които можете да промените според вашите изисквания. Всички HDFS блокове са с еднакъв размер с изключение на последния блок, който може да бъде със същия размер или по-малък. Hadoop framework разделя файловете на 128 MB блокове и след това ги съхранява във файловата система на Hadoop.
  • InputSplit –  Размерът на InputSplit по подразбиране е приблизително равен на размера на блока. Дефиниран е от потребителя. В програмата MapReduce потребителят може да контролира размера на разделяне въз основа на размера на данните.

3. Пример за Block и InputSplit в Hadoop

Да предположим, че трябва да съхраняваме файла в HDFS. Hadoop HDFS съхранява файлове като блокове. Блокът е най-малката единица данни, която може да бъде съхранена или извлечена от диска.

Размерът по подразбиране на блока е 128MB. Hadoop HDFS разбива файловете на блокове. След това съхранява тези блокове на различни възли в клъстера.

Например, имаме файл от 132 MB. Така HDFS ще разбие този файл на 2 блока.

Сега, ако искаме да извършим операция MapReduce върху блоковете, тя няма да се обработи. Причината е, че 2 блок е непълен. И така, InpuSplit решава този проблем.

MapReduce InputSplit ще формира логическо групиране от блокове като един блок. Като InputSplit включва местоположение за следващия блок и байтово изместване на данните, необходими за завършване на блока.

Заключение

Следователно InputSplit е само логическа част от данни, т.е. има само информация за адреса или местоположението на блоковете. Докато Block е физическото представяне на данните.

Сега съм сигурен, че имате по-ясно разбиране за блоковете InputSplit и HDFS Data, след като прочетете този блог. Ако откриете някаква друга разлика между InputSplit срещу Blocks, уведомете ни в секцията за коментари.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Въведение в Apache HBase моментни снимки, част 2:По-дълбоко гмуркане

  2. Как да:Сканирайте Salted Apache HBase таблици със специфични за регион ключови диапазони в MapReduce

  3. Какво представляват HBase уплътненията?

  4. Представяне на политиките за уплътняване на дялове на Apache HBase Medium Object Storage (MOB).

  5. Какво представлява класът Hadoop Mapper в MapReduce?