HBase
 sql >> база данни >  >> NoSQL >> HBase

Издание на CDH 6.2:Какво е новото в HBase

Cloudera наскоро пусна CDH 6.2, който включва две нови ключови функции в Apache HBase:

  1. Серийна репликация
  2. Кеш-паметта вече поддържа паметта Optane на Intel

Серийна репликация

HBase разполага с усъвършенстван механизъм за асинхронно репликация, който поддържа сложни топологии днес, които включват глобални кръгови, двупосочни, span-in и span-out топологии.

Тази способност за репликация към днешна дата осигурява евентуална последователност - което означава, че редът, в който се репликират актуализациите, не е непременно същият като реда, в който са били приложени към базата данни. Въпреки че това работи за много клиенти, редът на актуализации на крайната точка на репликация беше важен за много случаи на употреба.

Функцията за серийна репликация осигурява последователност на времевата линия за репликация. С други думи, редът на актуализациите се запазва чрез репликация към целевия клъстер. Има малка цена за тази последователност и в някои случаи потребителите може да установят, че репликацията е малко по-бавна от подхода за репликация по подразбиране.

Конфигурирането на тази опция е сравнително проста (задайте флага SERIAL на true) и може да се приложи по време на настройката на репликацията или по всяко време след това на ниво таблица, ниво пространство от имена или за партньор, който репликира всички таблици в HBase.

Кеш памет на HBase

Букетният кеш на HBase е двуслоен кеш, който е проектиран да подобри готовата производителност в различни случаи на употреба. Първият слой е в купчината на Java, а вторият слой от кеша може да се намира на няколко различни места, включително:памет извън хепа, памет Intel Optane, SSD или твърди дискове.

Препоръчителната конфигурация за втория слой на кеша на кофата за повечето клиенти е извън купчина. Разгръщанията в тази конфигурация са в състояние да мащабират до много по-големи размери на паметта, отколкото е възможно с вградения кеш памет, тъй като механизмът извън купчината избягва натиска за събиране на боклук на JVM. По-големият размер на кеша осигурява значително подобрена производителност на четене на HBase.

Започвайки с CDH 6.2, Cloudera вече включва възможността да се използва наскоро пуснатата памет Optane на Intel като алтернативна дестинация за 2-ро ниво на кеша. Тази конфигурация за внедряване ви позволява да имате ~3x размера на кеша за постоянна цена (в сравнение с кеша извън паметта на DRAM). Това има известна допълнителна латентност в сравнение с традиционната конфигурация off-heap, но нашето тестване показва, че като позволим на повече (ако не всички) от работния набор от данни да се поберат в кеша, настройката води до нетно подобрение на производителността, когато данните в крайна сметка се съхранява на HDFS (с помощта на твърди дискове).

При внедряване в облака или използване на локално обектно съхранение, подобрението на производителността ще бъде още по-добро, тъй като съхранението на обекти обикновено е много скъпо за произволно четене на малки количества данни. Таблицата по-долу дава представа за компромисите с цената, размера и латентността, необходими, когато планирате как да конфигурирате второто ниво на кеш паметта.

Съхранение $ Цена/GB Размер (постоянна цена) Закъснение
Извън хепа DRAM 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233,3 GB 10-100 µs
HDD² 0,027 1,3 TB 4-10 ms
Обектно съхранение³ 0,006 5,8 TB 10-100 ms

Прочетете този блог, за да научите повече за сътрудничеството на Intel и Cloudera за използване на Optane DC Persistent Memory за подобряване на производителността.

Препратки:

  1. Общ преглед на производителността на постоянната памет Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – минута 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ продукти/data-center-drives#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HDFS урок – пълно въведение в HDFS за начинаещи

  2. Надстройка на HBase върху извора на събития и архитектурата CQRS за 3 седмици

  3. Apache HBase регион Разделяне и сливане

  4. Какво е Hadoop Cluster? Най-добри практики за изграждане на Hadoop клъстери

  5. Репликация на оперативна база данни на Cloudera накратко