Тозиурок за Hadoop е всичко за Rack Awareness в Hadoop. В този блог ще опишем всичко за Rack Awareness в HDFS .
Преди всичко ще проучим какво е свойството на HDFS Rack Awareness, каква е нуждата от Rack Awareness в Hadoop. След това ще обсъдим поставянето на реплика чрез Rack Awareness в HDFS.
Най-накрая ще обсъдим и различните предимства на Rack Awareness в рамката Hadoop.
Въведение в HDFS Rack Awareness
Осведомяване на стелажите в Hadoop е концепцията, която избира по-близки Datanodes въз основа на информацията за багажника. По подразбиране, инсталацията на Hadoop предполага, че всички възли принадлежат към един и същ багажник.
За подобряване на мрежовия трафик, докато четете/записвате HDFS файлове в големи клъстери на Hadoop. NameNode избира възли за данни, които са на една и съща стойка или близка скала за четене/запис на заявки (клиентски възел). HDFS Namenode постига тази информация за стелажа, като поддържа идентификатори на стелажи на всеки възел с данни.
Защо Rack Awareness?
Основната цел на Rack Awareness е да:
- Подобрете надеждността и достъпността на данните.
- По-добра производителност на клъстера.
- Предотвратява загубата на данни, ако цялата стойка се повреди.
- За подобряване на честотната лента на мрежата.
- Дръжте насипния поток в багажника, когато е възможно.
Поставяне на реплика чрез Rack Awareness в Hadoop
Основната цел на поставянето на реплика чрез Rack Awareness, политиката е да се подобри надеждността на данните и т.н.
Една проста политика е да се поставят реплики върху стойката, за да се предотврати загуба на данни, когато цяла стойка се повреди. И позволява използването на честотна лента от множество стелажи при четене на файл.
На множество стелажни клъстери, блокирайте репликацията следва следните правила:
Не трябва да поставяте повече от една реплика на един възел. Също така не трябва да поставяте повече от две реплики на една и съща стойка. Това има затруднение, тъй като броят на стелажите, използвани за репликация на блокове, трябва винаги да е по-малък от общия брой реплики на блокове.
Например;
- Когато рамката на Hadoop създаде нов блок, тя поставя първата реплика на локалния възел. И поставете втори в различен багажник, а третият е на различен възел на локалния възел.
- При повторно репликиране на блок, ако броят на съществуващите реплики е едно, поставете второто на друг багажник.
- Когато броят на съществуващите реплики е две, ако двете реплики са в една и съща стойка, поставете третата на друга стойка.
Предимства на Rack Awareness в Hadoop
Нека сега да обсъдим някои предимства на Rack Awareness в Hadoop HDFS-
- Осигурете по-висока честотна лента и ниска латентност – Тази политика максимизира мрежовата честотна лента чрез прехвърляне на блок в рамките на стелаж, а не между стелажи. YARN е в състояние да оптимизира работата на MapReduce, като възлага задачи на възли, които са по-близо до техните данни по отношение на мрежовата топология.
- Осигурява защита на данните срещу повреда на стелаж – Namenode присвоява блоковите реплики на 2 и 3 блока на възли в различна стойка от първата реплика. По този начин той осигурява защита на данните дори срещу повреда на стелаж. Това обаче е възможно само ако Hadoop е конфигуриран с познания за неговата конфигурация на стелажа.
- Намалете разходите за писане и увеличете максимално скоростта на четене – Осведоменост за стелажите, политиката поставя заявки за четене/запис към реплики, които са в същия багажник. По този начин това намалява разходите за писане и увеличава максимално скоростта на четене.
Заключение
В заключение, това е концепцията, която избира по-близки Datanodes въз основа на информацията за стелажа, за да подобри надеждността на данните. Основната цел на Rack-Awareness е да предотврати загуба на данни, ако целият багажник се повреди. Освен това подобрява честотната лента на мрежата. Научете повече HDFS свойства в подробности.
Ако имате въпроси, свързани с Rack Awareness в Hadoop, моля, споделете с нас в секцията за коментари. Ще се опитаме да ви помогнем.