HBase
 sql >> база данни >  >> NoSQL >> HBase

Подобрения в производителността на оперативната база данни в CDP Private Cloud Base 7 срещу CDH5

Cloudera Data Platform (CDP) Private Cloud е най-изчерпателната локална платформа за интегриран анализ и управление на данни. Той съчетава най-доброто от Cloudera Enterprise Data Hub и Hortonworks Data Platform Enterprise Plus и носи най-новите и най-добрите технологии с отворен код за управление и анализ на данни в центъра за данни.

С най-новата версия (7) на CDP Private Cloud Base въведохме редица нови функции и подобрения. В тази публикация в блога бихме искали да споделим подобренията в производителността, налични в Apache HBase.

За тези, които са нови в HBase или го оценяват за нов проект, HBase е нерелационна разпределена база данни, на която се доверяват архитекти и разработчици, които искат да обработват големи обеми данни по навременен и надежден начин.

За това сравнение на производителността, ние измерихме HBase2, наличен в CDP Private Cloud Base 7 до Hbase1, наличен в CDH 5, използвайки YCSB работни натоварвания. Сравнението ни помага да разберем подобренията в производителността и последиците за клиентите, извършващи надстройки на място без промени в основния хардуер.

Забележка:Клиентите, които надграждат от CDH 5 до CDP 7, също ще получат надстройка на HBase от HBase1 до HBase2.

  • Персонализирано работно натоварване само за актуализиране на YCSB
    • Нашето персонализирано натоварване само за актуализация на YCSB изпълнява 
      • 100% операции АКТУАЛИЗИРАНЕ
    • Пример за приложение би бил магазин за показатели
    • Ефективност на работното натоварване: CDP 7 YCSB Актуализация. Пропускателната способност само на изпълнение на работното натоварване (операции в секунда) беше с 20% по-добра, отколкото при изпълнение с CDH5

  • YCSB WorkloadA 
    • YCSB Работно натоварване А изпълнява 
      • 50% операции ЧЕТЕНЕ
      • 50% операции АКТУАЛИЗИРАНЕ
    • Пример за приложение би бил магазин за сесии, записващ последните действия в потребителска сесия 
    • Ефективност на работното натоварване:CDP Private Cloud Base 7.1 HBase2 YCSB работно натоварване A Пропускателна способност (операции в секунда) беше с 15% по-добра от CDH5 HBase1

  • YCSB Workload C (само за четене) 
    • YCSB Workload C е работно натоварване само за четене и изпълнява 
      • 100% операции ЧЕТЕНЕ
    • Пример за приложение би бил прочетеният кеш на потребителския профил, когато профилите са изградени на друго място (напр. Hadoop) или банкова система за достъп и преглед на извлечения по сметката 
    • Ефективност на работното натоварване:CDP 7 YCSB работното натоварване C имаше подобна пропускателна способност (операции в секунда) като CDH 5

Присъда – CDP 7 осигурява подобрена производителност от CDH 5 в YCSB  

Персонализирано натоварване само за актуализиране :CDP 7 YCSB Актуализация само работното натоварване се изпълнява 20% по-добре отколкото C5.

YCSB Работно натоварване A :CDP 7 YCSB работното натоварване A се представи 15% по-добре отколкото CDH5.

YCSB Workload C :CDP 7 YCSB работното натоварване само за четене C имаше подобни операции/пропускателна способност до CDH 5 

По време на нашето тестване забелязахме, че надграждането от JDK8 до JDK 11 в рамките на CDP 7 може да подобри производителността с още 10%. Това е повече от подобренията в производителността, постигнати чрез надграждане от CDH5 до CDP7.

CDP 7 идва с инсталиран JDK8 по подразбиране и поддържа надстройка до JDK11. В нашите тестови изпълнения CDP 7 беше актуализиран, за да използва JDK 11 за YCSB изпълнение на работното натоварване, показано по-горе. Изпълнихме същите натоварвания и с JDK8 и резултатите от теста показаха производителност на JDK11 е с 5-10% по-добра в сравнение с JDK8 , както е показано в диаграмата по-долу

За да надстроите CDP 7 от JDK 8 до OpenJDK 11, моля, следвайте стъпките по-долу:

Стъпка 1:Инсталирайте OpenJDK11 на всички хостове, като използвате следното

RHEL 

sudo yum install java-11-openjdk

Ubuntu

sudo apt install openjdk-11-jdk

Стъпка 2:Само на хоста на Cloudera Manager Server (не се изисква за други хостове):

  1. Отворете файла /etc/default/cloudera-scm-server в текстов редактор.
  2. Редактирайте реда, който започва с експортиране JAVA_HOME (ако този ред не съществува, добавете го) и променете пътя към пътя на новия JDK (JDK обикновено се инсталира в / usr/lib/jvm)(или /usr/lib64/jvm на SLES 12), но пътят може да се различава в зависимост от това как е инсталиран JDK).

За повече информация относно надграждането на JDK, моля, следвайте Надстройване на JDK

Тестова среда

Методология на изпитване

CDH 5.16.3/HBase1 беше инсталиран на клъстера и бяха генерирани данни за работното натоварване с 1 милиард реда (размер на набор от данни 1TB) и бяха стартирани CDH 5.16.3 YCSB работни натоварвания. След зареждането изчакахме да приключат всички операции по уплътняване, преди да започнем теста за натоварване.

След като стартирането на CDH 5.16.3 приключи, CDP Private Cloud Base 7.1 HBase2 беше чисто инсталиран и данните бяха генерирани повторно в същия клъстер. След това бяха стартирани работните натоварвания на CDP Private Cloud Base 7.1 YCSB, за да се получат времената за тестване. Преди всяко изпълнение на натоварването инициализирахме таблицата HBase, използвана от YCSB. Моментна снимка на потребителската таблица utable_snap бяха създадени и приложени преди всяко изпълнение.

Всяко тествано работно натоварване се изпълняваше 3 пъти за по 15 минути за измерване на пропускателната способност*. Показаните резултати са средните стойности, взети от 3-те теста.

*Пропускателна способност (операции/сек) =брой операции в секунда

CDP Private Cloud Base 7.1 включва HBase2, а CDH 5.16.3 включва HBase1. Както CDP Private Cloud Base 7.1, така и CDH5 имат инсталиран JDK 8. CDP Private Cloud Base 7.1 поддържа JDK11, а CDP Private Cloud Base 7.1 беше актуализиран, за да използва JDK 11 за YCSB тестване, CDH 5.13.3 се изпълняваха с JDK 8 (1.8.0_141)

Тестови конфигурации

  • YCSB версия 0.17.0
  • YCSB обвързваща версия hbase2(CDP-CD 7.1) и hbase1(CDH 5) 
  • YCSB клиенти използваха 2
  • YCSB нишки на клиент 20
  • Размер на данните
    • YCSB таблица @1TB мащаб
    • Общ брой записи в таблицата YCSB 1,000,000,000 (1TB), всеки запис е 1KB
    • Брой региони в таблицата YCSB 250, с клъстер 5+1 възли, нейните приблизително 50 региона на сървър на регион
    • Средно пространство за съхранение на региона, използвано за размер на сървъра 290G
  • Сървърите на регион HBase бяха конфигурирани с 32GB купчина 
  • Използва се само L1 кеш с LruBlockCache с размер на кеша от 12,3 GB
  • Процентът на попадане в кеша L1, наблюдаван по време на изпълнение на сървъри в региона, е 85%
  • L2 изключен кеш паметник не е конфигуриран в клъстера

Клъстерни конфигурации

  • Използван клъстер : Клъстер с 6 възли (1 главен + 5 регионални сървъра)
  • Описание: Dell PowerEdge R430, 20c/40t Xenon e5-2630 v4 @ 2.2Ghz, 128GB RAM, 4-2TB дискове
  • Сигурност: Няма конфигуриран (без Kerberos)

Сравнени версии на Cloudera

Версия C7 :CDP Private Cloud Base 7.1.0

Версия C5: CDH5.16.3

Използвани JDK:JDK 8 ( 1.8.0_141) и JDK 11 (11.0.6)

Въз основа на нашето тестване (резултати по-горе), клиентите, които искат да надстроят от CDH 5 до CDP 7, трябва да очакват подобрена производителност за подобни натоварвания в сравнение с това, което получават днес.

Научете повече за Cloudera Operational DB тук


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Висока наличност (Multi-AZ) за CDP оперативна база данни

  2. Подходи за архивиране и аварийно възстановяване в HBase

  3. Концепции за разработка на приложения за оперативна база данни на Cloudera

  4. Създаване на отворен стандарт:управление на машинно обучение с помощта на Apache Atlas

  5. Бъдещето на Hadoop – заплати и прогнози за работа в анализа на големи данни