HBase
 sql >> база данни >  >> NoSQL >> HBase

Въведение в HDFS федерация и архитектура

В тозиурок за Hadoop , ние ще ви предоставим пълно представяне на HDFS Federation. В този урок ще обсъдим HDFS архитектура, ограничения на текущата архитектура на HDFS.

След това ще разгледаме подробно архитектурата на HDFS Federation заедно с техните предимства в рамката на Hadoop.

Какво е HDFS федерация?

Федерация подобрява съществуващ Hadoop HDFS архитектура. Предишната HDFS архитектура позволява едно пространство от имена за целия клъстер. В тази архитектура един NameNode управлява пространството от имена.

Ако NameNode не успее, тогава целият клъстер ще бъде извън експлоатация. И клъстерът ще бъде недостъпен, докато NameNode не се рестартира или не бъде поставен на отделна машина.

HDFS Federation беше въведена, за да се преодолее това ограничение. Той преодолява това, като добавя поддръжка за много NameNode/именни пространства към HDFS.

Текуща HDFS архитектура

HDFS има два основни слоя, дадени по-долу:

a) Пространство от имена Този слой управлява файлове, директории и блокове . Този слой поддържа основни операции с файлова система, като създаване, изтриване на файлове.

б) Блокиране на съхранение Състои се от две части-

  • Управление на блокове –  Той поддържа операции, свързани с блокове, като създаване, изтриване на блоковете. Той управлява възлите на данни в клъстера и се грижи за управлението на репликацията.
  • Физическо съхранение –  Това съхранява блоковете в локалната файлова система и осигурява достъп до операция за четене или запис. Следвайте тази връзка, за да научите операцията за четене и запис на HDFS данни.

Този текущ HDFS работи добре за по-малки настройки. Но за големите организации, където трябва да се грижим за огромното количество данни, има известно ограничение. Hadoop федерацията се справя с тези ограничения.

Ограничение на текущата HDFS архитектура

Ограничението на текущата HDFS архитектура е дадено по-долу:

1. Плътно свързани блоково хранилище и пространство от имена

Слой на пространството от имена и слой за съхранение са здраво свързани. Това затруднява алтернативното изпълнение на namenode. И ограничава други услуги да използват блоково хранилище.

2. Мащабируемост на пространството от имена

Пространството от имена не е мащабируемо като datanode. Мащабирането в HDFS клъстер е хоризонтално чрез добавяне на възли за данни. Но не можем да добавим повече пространство от имена към съществуващ клъстер. Можем вертикално да мащабираме пространството от имена на един имен възел.

3. Изпълнение

Цялата производителност на Hadoop зависи от пропускателната способност на namenode. Работата на текущата файлова система зависи от пропускателната способност на един имен възел. NameNode в момента поддържа 60 000 едновременни задачи.

Предстоящо MapReduce ще има поддръжка за повече от 1 00 000 едновременни задачи. И това ще се нуждае от повече namenode.

4. Изолация

Няма разделяне на пространството от имена. Така че няма изолация между организацията наемател, която използва клъстера.

HDFSФедерационна архитектура

Федерацията използва много независими Namenode/пространства от имена за хоризонтално мащабиране на услугата за имена. В HDFS Federation Architecture, в долната част са налични възли с данни. И възлите с данни се използват като общо съхранение за блокове от всички възли с имена.

Всеки възли с данни се регистрира с всички възли на имена в клъстера. Тези възли с данни изпращат периодични сърдечни удари, блокират, докладват и обработват команди от възлите на имената.

Много имена (NN1, NN2…, NNn) управляват съответно много пространства от имена (NS1, NS2…, NSn). Всяко пространство от имена има свой собствен блоков пул (NS1 има пул 1 и т.н.). Блок от пул 1 се съхранява на възел за данни 1 и така нататък.

1. Блоков басейн

Наборът от блокове е Block pool което принадлежи към едно пространство от имена. Има колекция от пулове в архитектурата на HDFS федерация. И всеки блок се управлява от другия.

Това позволява на пространство от имена да създаде идентификатор на блок за нови блокове без координация с друго пространство от имена. Всички Datanodes съхраняват блокове от данни, присъстващи във всички блокови пулове.

2. Обем на пространството от имена

Пространството от имена заедно с неговия пул от блокове е Обем на пространството от имена . В HDFS федерацията има много томове на пространството от имена. Следователно всеки том на пространството от имена работи независимо. Когато изтрием възела на имена или пространство от имена, тогава съответният пул от блокове, присъстващ на възлите с данни, също ще бъде изтрит.

Предимства на HDFS федерацията

HDFS Federation преодолява ограниченията на предишната HDFS архитектура. Следователно предоставя:

  • Изолация –  Няма изолация в един имен възел в многопотребителска среда. В HDFS федерацията различни категории приложения и потребители могат да бъдат изолирани в различни пространства от имена чрез използване на много имена.
  • Мащабируемост на пространството от имена –  Във федерацията много именни възли се увеличават хоризонтално в пространството от имена на файловата система.
  • Ефективност –  Можем да подобрим пропускателната способност на операциите за четене/запис, като добавим още имена.

Заключение

В заключение на HDFS Federation, можем да кажем, че тя преодолява ограничението на HDFS архитектурата с един възел. В предишната HDFS архитектура за цял клъстер позволява само едно пространство от имена. Докато Федерацията използва много независими Namenode/пространства от имена за хоризонтално мащабиране на услугата за имена.

Освен това разделя слоя на пространството от имена и хранилището слой. Следователно осигурява изолация, мащабируемост и опростен дизайн.

Ако имате някакви запитвания или предложения, свързани с федерацията в Hadoop HDFS, уведомете ни, като оставите коментар.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Използване на Hive за взаимодействие с HBase, част 1

  2. Apache Spark идва в Apache HBase с HBase-Spark модул

  3. Въведение, работа и предимства на Hadoop Combiner

  4. Топ 6 характеристики на HDFS – урок за HDFS на Hadoop

  5. Cloudera Impala:Заявки в реално време в Apache Hadoop, за реално