Целта на този урок за Hadoop е да ви предостави по-ясно разбиране между различните версии на Hadoop. В този блог разгледахме най-добрите 20 разлики между Hadoop 2.x и Hadoop 3.x.
Този блог обхваща разликата между Hadoop 2 и Hadoop 3 въз основа на различни функции.
Разлика между Hadoop 2.x срещу Hadoop 3.x
Apache Hadoop е софтуерна рамка с отворен код за разпределено съхранение и обработка на огромно количество набори от данни.
Hadoop 3.x беше въведен, за да се преодолее ограничението на Hadoop 2.x Hadoop 3.x добави някои нови функции, въпреки че старите функции все още се използват.
Подробно сравнение на функциите между Hadoop 2.x срещу Hadoop 3.x е дадено по-долу:
a. Лиценз
- Hadoop 2 .x- Apache 2.0, с отворен код
- Hadoop 3 .x- Apache 2.0, с отворен код
б. Минимална поддържана версия на Java
- Hadoop 2 .x- Java 7.
- Hadoop 3 .x- Java 8.
в. Толерантност на грешки
- Hadoop 2.x- В тази версия репликацията се справя с толерантността на грешки.
- Hadoop 3.x- В тази версия кодирането за изтриване се справя с толерантност към грешки.
г. Балансиране на данни
- Hadoop 2.x- Използва HDFS Балансьор за балансиране на данни
- Hadoop 3.x- Използва балансьор на възли в рамките на данни, който се извиква чрез CLI за балансиране на HDFS диск.
д. Схема за съхранение
- Hadoop 2.x- Използва схема за 3X репликация.
- Hadoop 3.x- Използва кодиране Erasure.
f. Разходи за съхранение
- Hadoop 2.x- В тази версия HDFS има 200% режийни разходи в пространството за съхранение.
- Hadoop 3.x- В тази версия HDFS има 50% режийни разходи в пространството за съхранение.
ж. Пример за разходи за съхранение
- Hadoop 2.x- Ако има 6 блока и 3x репликация на всеки блок, това води до 18 блока. Ще заема 18 блока.
- Hadoop 3.x- Ако има 6 блока, той ще заема 9 блоково пространство, т.е. 6 блока и 3 за паритет.
h. Услуга YARN Timeline
- Hadoop 2.x- Използва стара услуга за времева линия, която има проблеми с мащабируемостта.
- Hadoop 3.x- Тази версия подобрява услугата времева линия v2. Освен това подобрява мащабируемостта и надеждността на услугата за времева линия.
j. Обхват на портовете по подразбиране
- Hadoop 2.x- В тази версия портовете по подразбиране са ефимерни портове на Linux. Следователно в момента на стартиране те няма да успеят да се обвържат.
- Hadoop 3.x- Докато тази версия е преместена извън ефимерния обхват.
к. Инструменти
- Hadoop 2.x- Налични са също Hive, Pig, Tez, Hama и други инструменти на Hadoop.
- Hadoop 3.x- В тази версия също са налични Hive, pig, Tez, Hama и други инструменти на Hadoop.
л. Съвместима файлова система
- Hadoop 2.x- Той поддържа HDFS (FS по подразбиране), FTP файлова система:Това също така съхранява всичките му данни на отдалечено достъпни FTP сървъри. Той също така поддържа файлова система Amazon S3 (Simple Storage Service) файлова система Windows Azure Storage Blobs (WASB).
- Hadoop 3.x- Той поддържа всички предишни, както и файловата система Microsoft Azure Data Lake.
м. Ресурси на Datanode
- Hadoop 2.x- За MapReduce Datanode ресурсът не е предназначен. Можем да го използваме и за друго приложение.
- Hadoop 3.x- В тази версия ресурсът на възел с данни може да се използва и за други приложения.
n. Съвместимост на MR API
- Hadoop 2.x- MR API, съвместим с програмата Hadoop 1.x за изпълнение на Hadoop 2.X
- Hadoop 3.x- MR API също е съвместим с стартиране на програми Hadoop 1.x за изпълнение на Hadoop 3.X
o. Поддръжка за Microsoft
- Hadoop 2.x- Може да се внедри в Windows.
- Hadoop 3.x- Той също така поддържа Windows Windows.
стр. Слотове/контейнер
- Hadoop 2.x- Hadoop 1.x работи върху концепцията за слотове, докато Hadoop 2.X работи върху концепцията за контейнера.
- Hadoop 3.x- Hadoop 3.x също работи върху концепцията за контейнер.
q. Единична точка на повреда
- Hadoop 2.x- Той има функциите за преодоляване на SPOF. Така че, когато NameNode не успее, той се възстановява автоматично.
- Hadoop 3.x- Той също така има функции за преодоляване на SPOF. Така че, когато NameNode не успее, той се възстановява автоматично, няма нужда от ръчна намеса.
r. HDFS федерация
- Hadoop 2.x- В Hadoop 1.x само един NameNode за управление на цялото пространство от имена. Но Hadoop 2.x има множество NameNode за множество пространства от имена.
- Hadoop 3.x- Той също така има множество Namenode за множество пространства от имена.
s. Мащабируемост
- Hadoop 2.x- Можем да мащабираме до 10 000 възела на клъстер.
- Hadoop 3.x- Можем да мащабираме повече от 10 000 възела на клъстер.
t. HDFS моментна снимка
- Hadoop 2.x- Той добавя поддръжка за моментна снимка. Той също така осигурява възстановяване при бедствие и защита за потребителски грешки.
- Hadoop 3.x- Той също така поддържа функцията за моментна снимка.
u. Платформа
- Hadoop 2.x- Той служи като платформа за голямо разнообразие от анализ на данни. Възможно е също да изпълнявате обработка на събития, поточно предаване и операции в реално време.
- Hadoop 3.x- Възможно е също така да стартирате обработка на събития, поточно предаване и операции в реално време в горната част на YARN.
Заключение
В заключение, Hadoop 3.0 добави нови функции като кодиране на изтриване за справяне с толерантността на грешки. Hadoop 3.x също намалява разходите за съхранение с 200% до 50%.
Той също така представи нов инструмент на командния ред, наречен Disk balancer. Следователно Hadoop 3.x подобри цялостната производителност.
Ако откриете друга разлика между Hadoop 2.x и Hadoop 3.x, уведомете ни в секцията за коментари.