HBase
 sql >> база данни >  >> NoSQL >> HBase

Администриране на оперативна база данни

Бележка на редактора, август 2020 г.:Центърът за данни на CDP вече се нарича CDP Private Cloud Base. Можете да научите повече за това тук.

Въведение

Тази публикация в блога е част от поредица за оперативната база данни на Cloudera (OpDB) в CDP. Всяка публикация включва повече подробности за новите функции и възможности. Започнете от началото на поредицата с Оперативна база данни в CDP.

Тази публикация в блога ви дава общ преглед на административните инструменти и функции на оперативната база данни (OpDB) в платформата за данни Cloudera. Днес той се предлага в два форм-фактора:като напълно защитено, полу-управлявано предложение в CDP Public Cloud – Data Hub и като напълно персонализирано предложение в CDP Data Center (подобно на това, което е налично в CDH и HDP). За повече информация относно Data Hub вижте Cloudera Data Hub.

Фигура 1:OpDB Data Hub клъстер.

Можете да използвате връзките в тази статия, за да получите повече информация и инструкции за използване на тези функции.

Създаване и контрол на база данни

Пространствата от имена на Apache HBase са логически групи от таблици, които са подобни на база данни в традиционна система за релационна база данни. Пространствата от имена могат да се създават или управляват чрез Apache HBase Shell. За повече информация относно използването на обвивката Apache HBase вижте преглед на обвивката на Apache HBase.

С Мениджър на репликация и Рейнджър на снимката с CDP, можете да създадете пространството от имена и да го управлявате само в HBase shell. Но разрешенията са чрез Ranger, а репликацията е чрез Replication Manager.

Точно както в релационна база данни, пространствата от имена съдържат колекции от таблици и разрешения, настройки за репликация и изолация на ресурси. Можете да зададете тези конфигурации на ниво пространство от имена. В CDP можете да създадете пространство от имена и да го управлявате с помощта на HBase shell. Можете да използвате Apache Ranger за фини политики за оторизация и одит. За повече информация как да настроите сигурността в CDP, вижте Защита с помощта на Ranger.

Replication Manager ви помага да създавате политики за репликация на HBase. Можете да използвате Replication Manager, за да настроите репликация между CDH/HDP или Apache HBase към CDP Data Center.

Фигура 2:Създаване на потребителски интерфейс на политиката за репликация

Графична DDL и DCL функционалност

Има няколко предоставени инструменти за това, включително плъгини за:

  • Cloudera Machine Learning (CML):CML ви помага да заявявате данни с помощта на HBase клиент и Phoenix и ви помага при интерактивно изследване на данни, визуализация, споделяне и сътрудничество. OpDB може да се използва за съхраняване на резултатите от прогнозиране на сесия/задача/модел за по-късно запитване от множество различни потребители.

Фигура 3:Потребителски интерфейс на Cloudera Machine Learning

  • Hue:Hue е уеб-базиран интерактивен редактор на заявки, който ви позволява да взаимодействате със складове за данни. Можете да използвате приложението HBase Browser в Hue, за да създавате и разглеждате HBase таблици.

Фигура 4:Hue интерфейсът поддържа търсене, вмъкване, актуализиране, изтриване, DDL за HBase

Можете да използвате SQL интерфейс, като използвате Impala или Hive за обработка на заявки в Hue.

Фигура 5:SQL интерфейс с помощта на Impala

Ето урок за създаване на примерни таблици в HBase с помощта на Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse:Форматирането на HBase код за Eclipse е полезно при редактиране на HBase код в Eclipse. За повече информация вижте Изграждане и разработване на Apache HBase.

Инструменти като Zeppelin и Hue заедно с техните плъгини се предоставят от кутията. Но можете да използвате и помощни програми за SQL на трети страни, като Toad.

Инструменти за надграждане на версията на оперативната база данни

Можете да използвате Cloudera Manager за автоматизиране на процеса на надграждане на оперативната база данни във вашия Cloudera Data Platform-Data Center (CDP-DC). Надстройките се предоставят чрез версии или корекции за поддръжка. Cloudera Manager инсталира версиите и/или корекциите и управлява конфигурацията, както и процеса на рестартиране.

Ако използвате CDP в публичен облак, като Amazon AWS, трябва да създадете нов клъстер на центъра за данни, за да надстроите до новите версии на различни компоненти. За повече информация относно създаването на нова оперативна база данни клъстер на центъра за данни вижте Първи стъпки с оперативна база данни на CDP.

Предложението на Cloudera е базирано на клъстери; всички надстройки и корекции обхващат множество възли (сървъри) и инсталирането, конфигурирането, рестартирането са автоматизирани, включително непрекъснато рестартиране, където е приложимо.

Инструменти за управление на корекция на множество сървъри

В CDP Data Center Cloudera Manager инсталира версиите и управлява конфигурацията. Cloudera Manager също така извършва процеса на рестартиране за всеки от засегнатите компоненти.

Приложение за корекция с нулев престой

В CDP Data Center, Cloudera Manager ви позволява да прилагате корекции с нулев престой.

Управление на промените в множество сървъри

Можете да извършвате управление на промените върху схеми на база данни в множество екземпляри. Например, можете да направите това във вашата тестова/разработваща, сценична или производствена среда.

Можете да напишете необходимите промени с помощта на HBase shell и след това да го разпространите в другите екземпляри.

За повече информация относно използването на HBase shell вижте Apache HBase shell.

Разделяне на работното натоварване

Можете да направите разделяне на работно натоварване/приложение в рамките на OpDB, като използвате няколко инструмента в зависимост от естеството на набора от работни натоварвания и техните нужди от данни.

Ако всички приложения имат достъп до отделни таблици, тогава регионалните сървърни групи могат да се използват за отделяне на набор от възли за определен набор от таблици или пространства от имена, създавайки подход за хардуерно разделяне. За повече информация относно групите на регионални сървъри вижте Използване на групиране на RegionServer.

За приложения, които използват същия набор от таблици, можете да използвате регулиране на RPC, потребителски квоти и квоти за пространство, за да управлявате проблема с шумния съсед. Вижте HBase управление на офертите за повече технически подробности.

Можете също да комбинирате тези два набора от опции, за да имате по-сложна схема за разделяне. Използвайте Cloudera Manager, за да гарантирате, че конкретни услуги са разделени по подходящ начин между различни възли на клъстера; например можете да решите кои възли да се използват за SOLR търсене и т.н.  

Хардуерно разделяне

Cloudera Manager и YARN използват Linux cgroups и активно управление на паметта както за статично, така и за динамично разделяне на хардуерни ресурси.

Първо, всички процеси, изпълнявани на всички хостове, могат да бъдат твърдо разделени с cgroups, зададени от Cloudera Manager. Второ, съветникът позволява на потребителите да дефинират оформлението на статичните дялове за услуги чрез задаване на проценти, автоматично превеждане на CPU и I/O изолация, базирано на cgroup, и задава ограничения на паметта, като сами конфигурират услугите.

И накрая, вграденият мениджър на ресурси предоставя модел на контейнер за работни натоварвания, който поставя всяка отделна единица работа в контейнер, използвайки cgroups и активно управление на паметта (задаване, наблюдение и убиване) за изолиране на приложения.

Софтуерни хипервизори

Поддържат се следните софтуерни хипервизори

  • VMware се поддържа за локални среди
  • Виртуалните среди на Microsoft Azure (Azure стек)
  • Уеб услугите на Amazon, виртуализацията на Google Compute Platform и Microsoft Azure се поддържат в облака.

Поддръжка на контейнери и оркестрация

Cloudera предоставя изображение на Docker, което има инсталирани Apache HBase, Apache ZooKeeper и Cloudera Manager. Можете да конфигурирате YARN да управлява вашите Docker контейнери и да изпращате задания на Apache HBase към YARN в същия контейнер или да изпращате задания на YARN от друг контейнер.

За повече информация вижте Управление на Docker контейнери на YARN.

Отмяна на корекции или надстройки на версия

Cloudera Manager осигурява автоматизация за някои от процесите на връщане назад. Надстройките понякога могат да включват промени във форматите на данни. Инструментите за отмяна на промените във формата не се поддържат и трябва да задействате възстановяване на данни от архивни копия, така че връщането да може да използва старите данни.

Миграция на различни ОС

Стандартните инструменти за архивиране/възстановяване/възстановяване на данни на Cloudera са налични за подкрепа на миграцията на OpDB между различни операционни системи.

Стратегиите за архивиране и възстановяване при бедствие на HBase гарантират, че вашите данни са архивирани, за да ви предпазят от загуба на данни. HBase моментна снимка ви позволява да направите моментна снимка на таблица без много въздействие върху RegionServers. Също така, защото операциите за моментна снимка, клониране и възстановяване не включват копиране на данни.

За повече информация относно HBase архивиране и бедствие, вижте HBase архивиране и стратегии за възстановяване след бедствие.

Инструменти за администратор на база данни (DBA)

Включени са много инструменти за поддръжка на управлението на базата данни, включително:

  • Мениджър на Cloudera
  • Обвивка на HBase
  • Нюанс
  • HBCK2 
  • hbtop
  • Рейнджър 
  • Атлас
  • FreeIPA 
  • navencrypt 
  • HDFS инструменти
  • ПРЕЖДА

Тези инструменти осигуряват показатели и наблюдение, рестартиране на клъстера, добавяне на поглъщане, управление на жизнения цикъл, надстройки, сигурност, настройка на Kerberos и други функции.

Фигура 6:Cloudera Manager HBase интерфейс

Фигура 7:Показатели и мониторинг в Cloudera Manager:

Фигура 8:Рестартиране на клъстера в Cloudera Manager

В допълнение към тези инструменти, можете да използвате и следните инструменти за администриране на трети страни и с отворен код:

  • hrider
  • HADMIN

Отворете документирани интерфейси за инструменти за управление на трети страни

Ние също така предоставяме отворени API, за да позволим на други инструменти да се използват за управление на OpDB. Например, интерфейсът JMX може да се използва за интегриране с инструменти за наблюдение на трети страни като Grafana.

Заключение

В тази публикация в блога разгледахме как можете да използвате различните административни инструменти и възможности, предоставени от OpDB в CDP. В следващата статия ще разгледаме как можете да използвате възможностите за управление в OpDB, вижте тук.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HBase BlockCache 101

  2. Индексиране на имейл с помощта на Cloudera Search и HBase

  3. Ограничения на Hadoop, начини за разрешаване на недостатъците на Hadoop

  4. Как да:Активирайте удостоверяване и оторизация на потребителя в Apache HBase

  5. Репликация на оперативна база данни на Cloudera накратко