HBase
 sql >> база данни >  >> NoSQL >> HBase

HDFS Data Block – Научете вътрешностите на Big Data Hadoop

В този урок Big data Hadoop , ще ви предоставим подробно описание на блока данни на Hadoop HDFS. Преди всичко ще разгледаме какво представлява блокът от данни в Hadoop, каква е тяхната важност, защо размерът на HDFS блоковете данни е 128MB.

Ще обсъдим също примера за блокове от данни в hadoop и различни предимства на HDFS в Hadoop.

Въведение в HDFS блок от данни

Hadoop HDFS разделете големите файлове на малки парчета, известни като Блокове . Блокът е физическото представяне на данните. Той съдържа минимално количество данни, които могат да се четат или записват. HDFS съхранява всеки файл като блокове. HDFS клиентът няма контрол върху блока, като местоположението на блока, Namenode решава всички подобни неща.

По подразбиране размерът на HDFS блока е 128MB които можете да промените според вашите изисквания. Всички HDFS блокове са с еднакъв размер с изключение на последния блок, който може да бъде със същия размер или по-малък.

Hadoop framework разбива файловете на 128 MB блокове и след това се съхранява във файловата система на Hadoop. Приложението Apache Hadoop е отговорно за разпространението на блока от данни между множество възли.

Пример-

Да предположим, че размерът на файла е 513MB и ние използваме конфигурацията по подразбиране с размер на блока 128MB. След това рамката на Hadoop ще създаде 5 блока, първите четири блока 128MB, но последният блок ще бъде само от 1MB.

Следователно от примера става ясно, че не е необходимо в HDFS всеки съхранен файл да е точно кратно на конфигурирания размер на блока 128mb, 256mb и т.н. Следователно крайният блок за файл използва само толкова пространство, колкото е необходимо.

Защо HDFS Block размерът е 128 MB?

HDFS съхранява терабайти и петабайти данни. Ако размерът на HDFS блока е 4 kb като Linux файлова система, тогава ще имаме твърде много блокове данни в Hadoop HDFS, следователно твърде много метаданни.

Така че поддържането и управлението на този огромен брой блокове и метаданни ще създаде огромни разходи и трафик, което е нещо, което не искаме.

Размерът на блока не може да бъде толкова голям, че системата да чака много дълго време, докато последната единица обработка на данни завърши работата си.

Предимства на HDFS

След като научихме какво представлява HDFS Data Block, нека сега да обсъдим предимствата на Hadoop HDFS.

1. Възможност за съхранение на много големи файлове

Hadoop HDFS съхранява много големи файлове, които са дори по-големи от размера на един диск, тъй като Hadoop Framework разбива файл на блокове и се разпространява в различни възли.

2. Устойчивост на грешки и висока наличност на HDFS

Hadoop рамката може лесно да репликира блокове между възлите на данни. По този начин осигуряват толерантност на грешки и висока наличност HDFS.

3. Простота на управление на съхранение

Тъй като HDFS има фиксиран размер на блока (128MB), така че е много лесно да се изчисли броят на блоковете, които могат да бъдат съхранени на диска.

4. Прост механизъм за съхранение за възли с данни

Блокирането в HDFS опростява съхранението на Datanodes . Именов възел поддържа метаданни на всички блокове. HDFS Datanode не трябва да се притеснява за метаданните на блока като разрешения за файлове и т.н.

Заключение

Следователно, HDFS блокът данни е най-малката единица данни във файловата система. Размерът по подразбиране на HDFS Block е 128MB, който можете да конфигурирате според изискванията. HDFS блоковете са лесни за репликиране между възлите за данни. Следователно, осигурете устойчивост на грешки и висока наличност на HDFS.

За всякакви запитвания или предложения, свързани с блоковете данни на Hadoop HDFS, уведомете ни, като оставите коментар в раздел, даден по-долу.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Настройка на събирането на отпадъци на Java за HBase

  2. Какво представляват HBase znodes?

  3. Създаване на Simple CRUD уеб приложение и магазин за изображения с помощта на Cloudera Operational Database и Flask

  4. Apache HBase, които трябва и не трябва

  5. Apache HBase репликация:Оперативен преглед