HBase
 sql >> база данни >  >> NoSQL >> HBase

Cloudera Replication Plugin позволява репликация на x-платформа за Apache HBase

Платформата за данни Cloudera (CDP) е най-новото предложение за големи данни от Cloudera. Той включва Apache HBase и Phoenix като част от платформата. Тези два компонента са предоставени в 3 форм-фактора:

  1. За локално внедряване те са налични по начин, подобен на CDH и HDP (в рамките на предложението за частен облак CDP)
  2. За клиенти, които искат сами да управляват базата данни в AWS &Azure, тя е достъпна като част от предложението CDP Public Cloud DataHub (с шаблона за оперативна база данни или в персонализирана внедряване на DataHub)
  3. В скоро време ще бъде наличен като част от оперативната база данни на Cloudera (COD), която е напълно управлявано предложение, елиминиращо режийните разходи за управление на внедряването на HBase

Клиентите на Apache HBase на Cloudera обикновено работят с критични приложения, които не могат да си позволят престой. Те се нуждаят от начин да мигрират към ново внедряване или без прекъсване на производството или, като минимум, с малък прекъсване. Имайки предвид тези съображения за надграждане, особено с предстоящия край на поддръжката за CDH5 и HDP 2, ние разработихме Приставката за репликация на Cloudera OpDB .

Много компании също внедряват CDH 6, HDP 3 и EMR базирани HBase клъстери, но се стремят да намалят или премахнат оперативните разходи за поддръжка на HBase клъстери. За тях Приставката за репликация на Cloudera OpDB може да им позволи да мигрират към DataHub или COD, без да налагат престой или прекъсване на производството.

Приставката за репликация поддържа репликация от следните изходни HBase клъстери:

  • CDH 5.14
  • CDH 6.3
  • HDP 2.6.5
  • HDP 3.1.5
  • EMR 5,28

Репликация на HBase

HBase предоставя зряла, богата на функции способност за репликация в продължение на почти десетилетие. Репликацията е една от най-популярните възможности на HBase, тъй като предоставя решение за автоматично възстановяване при бедствия (DR), поддържа миграция на данни, поддържа разделяне на работното натоварване и/или поддържа вторичен индекс, базиран на търсене, чрез интеграция с Apache Solr. Подробна дискусия за това как работи HBase репликацията и как да конфигурирате репликация е обяснена в Справочното ръководство за HBase и е обсъждана в много статии в блога на Cloudera. Днес той поддържа много топологии, включително:

  • Вентилатор 
  • Извеждане на вентилатор
  • Цикличен
  • Двупосочен

Репликацията на HBase може да бъде конфигурирана или на ниво пространство от имена (т.е. база данни), или на ниво таблица. Макар че е почти в реално време в природата, той може да бъде конфигуриран да бъде в крайна сметка последователен или последователен на времевата линия.

Приставката за репликация на Cloudera OpDB поддържа само дестинационен клъстер, предоставен от CDP DataHub Cluster или от база данни на COD, разгърната в AWS или Azure.

Установяване на доверие

Репликацията на HBase до момента изисква всички участващи клъстери да имат еднакви дефиниции за защита, с други думи, всички клъстери трябва или да нямат активирана защита (конфигурацията за удостоверяване е зададена на проста) , или всички клъстери трябва да имат активирана защита с kerberos (конфигурацията за удостоверяване е зададена на kerberos) .

Когато се използва Kerberos, всички kerberos принципали на клъстерите трябва да принадлежат към една и съща сфера, или ако са в различни сфери, те трябва да са надеждни помежду си (известно като кръстосано царство удостоверяване).

Конфигуриране на доверие в различни области с Kerberos е проблематично в повечето организации, тъй като корпоративните политики за сигурност обикновено го забраняват. За да разрешите този проблем, плъгинът за репликация на Cloudera OpDB разширява репликацията на HBase, за да използва алтернативен метод за удостоверяване, позволявайки репликация между домейни за сигурност. Приставката за репликация позволява репликация 

  • В множество Kerberos домейни, без да се изисква доверие в различни области
  • Репликация от сигурни към несигурни клъстери и 
  • Репликация от несигурни към защитени клъстери.

За да установи доверие от CDP клъстери за клъстери, които нямат конфигурации за сигурност или са защитени с Kerberos, плъгинът за репликация внедрява нов механизъм за удостоверяване, използвайки споделена тайна, която се създава с помощта на предоставен инструмент и се съхранява както в изходния, така и в дестинационния клъстер.

Заключение

Репликацията е ценен инструмент за внедряване на DR и решения за миграция на център за данни (DC) за HBase. Той има някои предупреждения, както е показано тук, когато се занимавате с конфигурации за сигурност на клъстерите. С предстоящия край на живота на CDH 5 и HDP 2, възможността за мигриране на данни от тези наследени платформи към CDP е наложителна.

За клиенти с внедряване на HBase, базирано на HDP3, CDH6 и EMR 5.28, този плъгин позволява на тези клиенти безпроблемно да приемат напълно управлявано HBase решение и драстично да намалят оперативните разходи за управление на HBase.

Свържете се с екипа на вашия акаунт в Cloudera, ако се интересувате от внедряване на приставката за репликация на Cloudera OpDB във вашата среда.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Какво е двойка ключови стойности на MapReduce в Hadoop?

  2. Как работи Hadoop – разберете как работи Hadoop

  3. Какво е Hadoop OutputFormat в MapReduce?

  4. Архитектурни модели за обработка на данни в почти реално време с Apache Hadoop

  5. 20 Забележима разлика между Hadoop 2.x срещу Hadoop 3.x