Защо да научите Касандра с Hadoop?

„Компаниите осъзнават, че могат да добиват ценна бизнес информация, за да подобрят вземането на решения и да получат конкурентно предимство. Инструменти като Hadoop и Cassandra правят всичко това възможно и поради това NoSQL уменията на всички нива са изключително търсени.” – Анализатори на TechRepublic

Разработен като вътрешен проект във Facebook за захранване на тяхната функция за търсене на входяща поща, Cassandra е Система за управление на разпределени бази данни с отворен код . Той беше пуснат като проект с отворен код в Google Code през 2008 г. и впоследствие се превърна в проект от най-високо ниво във Фондацията на Apache Software от 2010 г.

Касандра е следващото ГОЛЯМО нещо:

Apache Cassandra е проектиран да обработва огромно количество данни (по отношение на скорост, обем и разнообразие) в многобройни сървъри за стоки, гарантиращи висока наличност и без SPOF (единична точка на отказ).
Cassandra предлага и мощна поддръжка за клъстери, обхващащи множество центрове за данни. Липсата на „главна-подчинена структура“, подобно на традиционните архитектури, позволява нулево въздействие върху системата, ако конкретен възел се повреди.
Изследователи от университета в Торонто, извършващи проучване върху NoSQL системи, заявяват, че по отношение на мащабируемостта и максималната пропускателна способност на възел , Cassandra се очертава като явен победител. Основният фокус на NoSQL DBMS е да осигури Мащабируемост , Изпълнение и Висока наличност. Подобно на повечето NoSQL СУБД, Cassandra може да обработва както структурирани, така и неструктурирани данни и се представя значително добре на горните параметри.
Касандра може да служи и като хранилище за данни в реално време („Системата за запис“) за онлайн/транзакционни приложения и като интензивна база данни за четене за системите за бизнес разузнаване. Прочетете нашата публикация в блога за различни предимства, предлагани от Cassandra, за повече информация.

Защо да използвате Hadoop с Cassandra?

С прости думи, да имате:

Обединено работно натоварване
Наличност
По-лесно внедряване

Когато става дума за Hadoop, фирмите не се интересуват от основната структура за съхранение на Hadoop, а от неговите рентабилни методи за доставяне за анализ и обработка на огромни количества данни. Възможността за вземане на решения от резултатите от MapReduce, Hive, Pig, Mahout и други операции е това, което е най-важно за тези организации.

Ключови точки, които трябва да запомните:

Разпределената файлова система на Hadoop (HDFS) е един от многото различни компоненти и проекти, съдържащи се в екосистемата на Hadoop. Проектът Apache Hadoop дефинира HDFS като основна система за съхранение, използвана от приложенията на Hadoop .HDFS може да съхранява масивни разпределени неструктурирани набори от данни. Данните могат да се съхраняват директно в HDFS или могат да се съхраняват в полуструктуриран формат в HBase, който позволява бърз достъп до данни на ниво запис и е моделиран след системата BigTable на Google. Cassandra от друга страна е не- релационна система, която използва модела на данни BigTable , но използва схемата Dynamo на Amazon за разпространение и клъстериране на данни.
Hadoop прави много страхотни неща, неговите основни MapReduce възможности са много силни. Експертите от индустрията обожават Hive и неговия SQL-подобен дизайн. Въпреки това, файловата система HDFS е изключително сложна за настройка, има единични точки на повреда и – според обратната връзка от големите фирми просто не е готова да направи това, което искат да прави . Cassandra, от друга страна, предоставя всички възможности на по-ниското ниво на стека Hadoop. В същото време Cassandra предоставя и възможности за приложения в реално време с ниска латентност в тази инфраструктура.

Как Cassandra и Hadoop могат да работят заедно?

Много доставчици предлагат алтернативи на HDFS. Неотдавнашен документ от организация, наречена GigaOM, предоставя преглед на високо ниво за това как Apache Cassandra File System може да се използва за замяна на HDFS с минимални промени в програмирането, необходими от гледна точка на развитието, и как могат да се извлекат редица ползи в този процес. DataStax , водещ търговски доставчик за дистрибуции на Cassandra, комбинира Cassandra с Hadoop и го нарече Brisk. С Brisk HDFS е заменен от файловата система Cassandra. Разгледайте повече за HDFS концепциите. Вижте този онлайн курс за големи данни , който е създаден от Top Industrial Working Experts.

Предимство на комбинацията Cassandra – Hadoop:

Може да се внедри и Cassandra с Hadoop в същия клъстер. Това означава, че можете да имате най-доброто от двата свята.
Тбазирани на време и в реално време работи под приложения на Cassandra (в реално време е силата на Касандра), докато базирани на партиди анализи и запитвания които не изискват времева марка, могат да работят на Hadoop. В този вид екосистема HDFS е заменен от Cassandra и това е невидимо за разработчика. Човек може да преназначава динамично възли между средите Cassandra и Hadoop, както е подходящо.
Файловата система Cassandra премахва единичните точки на неизправност които са свързани с HDFS, а именно точките на повреда NameNode и Job Tracker, които са свързани с HDFS.

Идеята следователно е да се комбинира Cassandra, която е пионер сама себе си в обработката на транзакции в реално време с голям обем , с Hadoop, който се отличава с по-групово ориентирани аналитични решения .

Касандра и големите:

Много организации в браншовите вертикали приемат Cassandra за постигане на различни бизнес цели. Някои от тях са:

Netflix – Използва Cassandra като своя бек-енд база данни за своите стрийминг услуги.
WebEx на Cisco – Използва Cassandra за съхраняване на потребителска емисия и активност в почти реално време.
SoundCloud – Използва Cassandra за съхраняване на таблото за управление на своите потребители.
IBM – Направи проучване за изграждане на мащабируема имейл система, базирана на Cassandra

Длъжностни длъжности, включващи умения за Hadoop и Cassandra:

Проучване на Simplyhired показва, че работните места в Cassandra са много търсени поради високия процент на приемане в индустрията, особено през последните няколко години. И бъдещето изглежда много обещаващо.

Нека разгледаме някои от длъжностите, включващи уменията на Hadoop-Cassandra и техните заплати, споменати в Indeed.com:

Архитект на данни: Тази позиция осигурява средна заплата от $107 000. Архитектите на данни трябва да имат известен опит в създаването на модели на данни, съхраняване на данни, анализиране на данни и миграция на данни
Научен специалист по данни: Те събират данни, анализират ги, представят данните визуално и използват данните, за да правят прогнози/прогнози. Средната заплата за специалист по данни е $104 000
Системен инженер: Средната заплата на системните инженери е $89 000.
DBA: DBA печелят средно над $100 000.
Разработчик на софтуерни приложения: Разработчиците на софтуер получават средна заплата от $107 000, а разработчиците на приложения $93 000. Хората с тези умения могат да получат достатъчно работа на свободна практика или могат да стартират свой собствен стартъп, ако имат предприемачески дух.

Сродни публикации:

Избор на правилната NoSQL база данни.

Как да отворя CQLSH на Cassandra, инсталиран на Windows?