HBase
 sql >> база данни >  >> NoSQL >> HBase

Съхранение на данни от следващо поколение в Сантандер, Великобритания

Навременните данни са от решаващо значение за бизнеса в ерата на големите данни:Тази публикация в блога очертава как Santander UK използва най-новите технологии на Cloudera и превъзходна способност за разработка на софтуер, за да създаде следващото поколение съхранение на данни и анализ на поточно предаване в подкрепа на интелигентност, която може да подобри взаимоотношенията с клиентите и следвайте мантрата „искаме да помогнем на хората да растат и да просперират.

Пътуването на Сантандер с големи данни в Обединеното кралство започна преди около четири години. Те бяха ранно възприели новите технологии за стрийминг на данни като Apache Kafka и имаха амбиции да революционизират изживяването на клиентите с използването на данни в реално време и анализи в приложението за мобилни потребители.

Оттогава Santander UK подобри както отпечатъка, така и способността за иновации с технологиите за големи данни и се развива бързо. Необходимостта от широкомащабни стрийминг анализи се увеличи и стана реалност. Днес, в Santander UK, платформата за големи данни, машинно обучение и анализ на Cloudera се допълва от интегрирана висококачествена и мащабируема доставка на събития на платформа като услуга (PaaS) чрез Apache Kafka.

Друг технологичен компонент, който е централен за следващото поколение Data Warehouse на Santander UK, е използването на Apache Kudu за позволяване на бърз анализ на бързи данни. Когато се комбинира с аспекти на методологията за проектиране на Data Vault 2.0, той улеснява бързото поглъщане от стотици потоци от данни на Apache Kafka; както разтоварването на натоварването от съществуващите наследени системи, така и предоставянето на възможност за задаване на въпроси „точно тук, точно сега“ относно поведението на клиентите и текущото състояние на банката.

Скорост към пазара

Бързите потоци от данни могат да се преместват онлайн с минимални усилия благодарение на иновативната нова платформа в Santander UK, която интегрира наследени системи с нов Data Vault чрез Apache Kafka. Поради чистата структура на интегрираните данни, нов поток от събития за попълване на Apache Kudu Data Vault до голяма степен се задвижва от конфигурацията – съобразяване на събития с данни със структурата на центъра, сателита и връзките на методологията на Data Vault 2.0. Това позволява на схемата да реагира на промени в бизнеса или ново разбиране за това как данните трябва да бъдат съобразени.

Santander UK може да повлияе на трансформациите на данни чрез мащабиране на еластичната платформа за доставка на събития, която се основава на Scala Akka и Apache Kafka, позволявайки бързо и мащабируемо обогатяване на данни в реално време. Това позволява по-бързи, по-навременни данни, по-бързи решения и по-висока скорост за пускане на пазара за случаи на употреба благодарение на платформата и архитектурата за многократна употреба.

Наука за данни и бързо създаване на прототипи на продукти за данни

В крайна сметка има много потенциални потребители на този източник на данни за поточно предаване; Въпреки това, интересна информация вече е получена чрез интегрирането на Cloudera Data Science Workbench към Data Vault. Те осигуряват изчерпателно изживяване в областта на Data Science за нарастващия екип от Data Science и също така използват – по типичен иновативен начин на Сантандер в Обединеното кралство – потенциала за бързо прототипиране на идеи и създаване на нови продукти за данни, преди да се справят с тежки инженерни и архитектурни предизвикателства. Създайте бърз прототип и след това, ако поражда стойност, развийте го в първокласен продукт.

Бърза интеграция:Моделът за принос

В духа на иновациите и гъвкавостта, които екипът на Santander UK Data Innovation направи реалност, те създадоха идеята за Модела за принос. Тъй като клъстерът е мулти-наемател с различни бизнес единици, които снабдяват, почистват и проектират нови набори от данни; ако се счита за полезни за останалата част от бизнеса, таблиците с връзки в стил Data Vault могат да се използват за интегриране на тези общополезни данни в ядрото на схемата на Data Vault. По този начин екипът може да увеличи стойността на продуктите за данни чрез бързо генериране на нови комбинации от набори от данни, с проследим произход, като използва Cloudera Navigator за управление и сигурност чрез използване на Apache Sentry за контрол на достъпа. Ако данните на бизнес единицата се считат за полезни за други, те се свързват с ядрото и се споделят в съответствие с принципите на управление.


Моделът на приноса ни позволява да използваме чисти набори от данни, които се създават независимо от различни бизнес звена и продуктови екипи. Ако тези данни са ценни за останалата част от бизнеса, ние имаме възможността да ги внесем в Data Vault като първокласен гражданин чрез използването на таблици с връзки. Искахме да повторим подхода на общността на Apache към софтуера с отворен код за системи за данни в нашата организация, за да подобрим иновациите чрез сътрудничество.

    – Николет Буливант – Ръководител на инженеринг на данни, Сантандер, Великобритания

Много дестинация:Един поток, който да управлява всички тях

Необработените потоци от събития, които се генерират от наследени системи, се считат за канонични и обикновено се изискват от други заинтересовани страни, които използват клъстера. Екипът за иновации в данните на Santander UK е възприел принципа да гарантира, че тези потоци от събития са достъпни за използване чрез различни случаи на употреба и технологии; по този начин, каноничен поток от събития може да бъде преразпределен към различни дестинации; или HDFS файлова система, Apache HBase или Apache Kudu. Това помага да се създаде единна версия на истината за всички заинтересовани страни, като същевременно се избягва обратния натиск върху наследените системи.

Заключение

Накратко, Santander UK прави иновации директно в стека на Cloudera, свързвайки поточни данни, усъвършенствани принципи и рамки за софтуерно инженерство и модерни принципи за проектиране на складове за данни, за да генерира представа в реално време за подобряване на клиентското изживяване и финансовото благополучие на клиентите. Това нововъведение наскоро беше признато, тъй като жури от трета страна гласува Сантандер за финалист на наградата Data Impact Award.

Николет Буливант е ръководител на отдел инженеринг на данни в Сантандер, Великобритания.
Роб Сивики е старши архитект на решения за професионалните услуги на Cloudera, EMEA.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Как да:Използвайте интерфейса REST на Apache HBase, част 3

  2. Въведение в Apache HBase моментни снимки, част 2:По-дълбоко гмуркане

  3. Урок за Hadoop MapReduce за начинаещи

  4. Какво представляват HBase znodes?

  5. Въведение в HDFS федерация и архитектура