HBase
 sql >> база данни >  >> NoSQL >> HBase

Осведоменост за Rack в Hadoop и неговите предимства

Тозиурок за Hadoop е всичко за Rack Awareness в Hadoop. В този блог ще опишем всичко за Rack Awareness в HDFS .

Преди всичко ще проучим какво е свойството на HDFS Rack Awareness, каква е нуждата от Rack Awareness в Hadoop. След това ще обсъдим поставянето на реплика чрез Rack Awareness в HDFS.

Най-накрая ще обсъдим и различните предимства на Rack Awareness в рамката Hadoop.

Въведение в HDFS Rack Awareness

Осведомяване на стелажите в Hadoop е концепцията, която избира по-близки Datanodes въз основа на информацията за багажника. По подразбиране, инсталацията на Hadoop предполага, че всички възли принадлежат към един и същ багажник.

За подобряване на мрежовия трафик, докато четете/записвате HDFS файлове в големи клъстери на Hadoop. NameNode избира възли за данни, които са на една и съща стойка или близка скала за четене/запис на заявки (клиентски възел). HDFS Namenode постига тази информация за стелажа, като поддържа идентификатори на стелажи на всеки възел с данни.

Защо Rack Awareness?

Основната цел на Rack Awareness е да:

  • Подобрете надеждността и достъпността на данните.
  • По-добра производителност на клъстера.
  • Предотвратява загубата на данни, ако цялата стойка се повреди.
  • За подобряване на честотната лента на мрежата.
  • Дръжте насипния поток в багажника, когато е възможно.

Поставяне на реплика чрез Rack Awareness в Hadoop

Основната цел на поставянето на реплика чрез Rack Awareness, политиката е да се подобри надеждността на данните и т.н.

Една проста политика е да се поставят реплики върху стойката, за да се предотврати загуба на данни, когато цяла стойка се повреди. И позволява използването на честотна лента от множество стелажи при четене на файл.

На множество стелажни клъстери, блокирайте репликацията следва следните правила:

Не трябва да поставяте повече от една реплика на един възел. Също така не трябва да поставяте повече от две реплики на една и съща стойка. Това има затруднение, тъй като броят на стелажите, използвани за репликация на блокове, трябва винаги да е по-малък от общия брой реплики на блокове.

Например;

  • Когато рамката на Hadoop създаде нов блок, тя поставя първата реплика на локалния възел. И поставете втори в различен багажник, а третият е на различен възел на локалния възел.
  • При повторно репликиране на блок, ако броят на съществуващите реплики е едно, поставете второто на друг багажник.
  • Когато броят на съществуващите реплики е две, ако двете реплики са в една и съща стойка, поставете третата на друга стойка.

Предимства на Rack Awareness в Hadoop

Нека сега да обсъдим някои предимства на Rack Awareness в Hadoop HDFS-

  • Осигурете по-висока честотна лента и ниска латентност –  Тази политика максимизира мрежовата честотна лента чрез прехвърляне на блок в рамките на стелаж, а не между стелажи. YARN е в състояние да оптимизира работата на MapReduce, като възлага задачи на възли, които са по-близо до техните данни по отношение на мрежовата топология.
  • Осигурява защита на данните срещу повреда на стелаж –  Namenode присвоява блоковите реплики на 2 и 3 блока на възли в различна стойка от първата реплика. По този начин той осигурява защита на данните дори срещу повреда на стелаж. Това обаче е възможно само ако Hadoop е конфигуриран с познания за неговата конфигурация на стелажа.
  • Намалете разходите за писане и увеличете максимално скоростта на четене –  Осведоменост за стелажите, политиката поставя заявки за четене/запис към реплики, които са в същия багажник. По този начин това намалява разходите за писане и увеличава максимално скоростта на четене.

Заключение

В заключение, това е концепцията, която избира по-близки Datanodes въз основа на информацията за стелажа, за да подобри надеждността на данните. Основната цел на Rack-Awareness е да предотврати загуба на данни, ако целият багажник се повреди. Освен това подобрява честотната лента на мрежата. Научете повече HDFS свойства в подробности.

Ако имате въпроси, свързани с Rack Awareness в Hadoop, моля, споделете с нас в секцията за коментари. Ще се опитаме да ви помогнем.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Cloudera Impala:Заявки в реално време в Apache Hadoop, за реално

  2. 6 най-добри техники за оптимизация на работа в MapReduce

  3. Apache HBase репликация:Оперативен преглед

  4. Hadoop RecordReader Въведение, работа и типове

  5. Урок за Hadoop MapReduce за начинаещи