HBase
 sql >> база данни >  >> NoSQL >> HBase

Въведение, работа и предимства на Hadoop Combiner

В този урок за Hadoop , ние ще ви предоставим подробно описание на Hadoop Combiner. Преди всичко ще видим какво е MapReduce Combiner, каква е ключовата роля на Combiner в MapReduce.

След това ще обсъдим примера на програмата MapReduce със и без комбиниран модул в Hadoop. Най-накрая ще видим и някои предимства и недостатъци на Combiner в MapReduce.

 Какво е Hadoop Combiner?

Комбинатор е известен още като „Мини-редуктор ”, което обобщава Mapper изведете запис със същия ключ, преди да преминете към Редуктора .

На голям набор от данни, когато стартираме задание MapReduce. Така Mapper генерира големи парчета междинни данни. След това рамката предава тези междинни данни на редуктор за по-нататъшна обработка.

Това води до огромно претоварване на мрежата. Рамката на Hadoop предоставя функция, известна като Combiner което играе ключова роля за намаляване на претоварването на мрежата.

Основната задача на Combiner a Mini-Reducer е да обработва изходните данни от Mapper, преди да ги предаде на Reducer. Работи след картографа и преди редуцера. Използването му не е задължително.

Как работи Combiner в Hadoop?

Нека сега да научим как нещата се променят, когато използваме комбинатора в MapReduce?

Както виждаме на горната диаграма, няма комбинатор. Входът е разделен на два картографа. Рамката генерира 9 ключа от картографите.

И така, сега имаме (9 ключ/стойност) междинни данни. Допълнителният картограф изпраща този ключ-стойност директно към редуктора. Докато изпраща данни към редуктора, той консумира известна честотна лента на мрежата. Прехвърлянето на данни към редуктор отнема повече време, ако размерът на данните е голям.

Сега от горната диаграма, ако използваме комбинатор между мапер и редуктор. Тогава комбинаторът ще разбърка 9 ключ/стойност, преди да ги изпрати към редуктор. И след това генерира 4 двойки ключ/стойност като изход.

Сега Reducer трябва да обработи само 4 данни за двойки ключ/стойност, които се генерират от 2 комбинатора. Следователно редукторът се изпълнява само 4 пъти, за да произведе крайния изход. По този начин това увеличава цялостната производителност.

Предимства на Combiner в MapReduce

Нека сега да обсъдим предимствата на Hadoop Combiner в MapReduce.

  • Използването на обединител намалява времето, необходимо за трансфер на данни между картограф и редуктор.
  • Комбинаторът подобрява цялостната производителност на редуктора.
  • Намалява количеството данни, които редукторът трябва да обработи.

Недостатъци на Combiner в MapReduce

Има и някои недостатъци на Hadoop Combiner. Нека сега да обсъдим същото.

  • В локалната файлова система, когато Hadoop съхранява двойките ключ-стойност и стартира комбинатора по-късно, това ще доведе до скъпо IO на диска.
  • Заданията на MapReduce не могат да зависят от изпълнението на обединителя, тъй като няма гаранция за неговото изпълнение.

Заключение

Следователно Hadoop Combiner играе ключова роля за намаляване на претоварването на мрежата. Той подобрява цялостната производителност на редуктора чрез обобщаване на изхода на Mapper.

Надявам се, че сега имате ясно разбиране за Hadoop Combiner. Ако все още имате въпроси, моля, уведомете ни, като оставите коментар в раздел по-долу.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. така че вашата HBase е счупена

  2. Въведение, работа и предимства на Hadoop Combiner

  3. Как да:Използвайте интерфейса REST на Apache HBase, част 3

  4. Какво представляват HBase znodes?

  5. Вътре в архитектурата за поглъщане на данни в почти реално време на Сантандер