Database
 sql >> база данни >  >> RDS >> Database

Запалете се от Apache Spark – част 2

Благодаря за отделеното време; Определено се опитвам да ценя вашето. В част 1 – обсъдихме библиотеките на Apache Spark, компонентите на Spark като драйвер, DAG Scheduler, Task Scheduler и Worker. Сега в част 2 – ще обсъдим основите на концепциите на Spark като устойчиви разпределени набори от данни, споделени променливи, SparkContext, трансформации, действие и предимства на използването на Spark, заедно с примери и кога да използвате Spark.

RDD – Устойчиви разпределени набори от данни

Те са колекции от елементи, които могат да се сериализират и такава колекция може да бъде разделена, в който случай се съхранява в множество възли.

Може да се намира в паметта или на диска.

Spark използва RDD за намаляване на I/O и поддържане на обработените данни в паметта

RDD помага при толериране на повреди на възли и не е необходимо да рестартирате целия процес или изчисление

Обикновено се създава от входния формат на Hadoop или от трансформация, приложена върху съществуващи RDD.

RDD съхраняват своя произход от данни; ако данните са загубени Spark преиграйте родословието, за да възстановите изгубените RDD.

RDD са неизменни.

Споделени променливи

Spark има два типа променливи, които позволяват споделяне на информация между възлите за изпълнение.

Две променливи са променливи за излъчване и акумулатор.

Всички променливи за излъчване се изпращат до възлите за отдалечено изпълнение, подобно на конфигурационните обекти на MapReduce.

Всички акумулатори също се изпращат до възли за отдалечено изпълнение, с ограничението, че можем да добавим само към акумулаторните променливи, подобно на броячите на MapReduce.

Контекст на Spark

Това е обект, който представлява връзката към клъстер Spark.

Използва се за създаване на RDD, излъчване на данни и инициализиране на акумулатори.

Трансформации

Това са функции, които приемат един RDD и връщат друг.

Трансформациите никога няма да променят своя вход, връщат само модифицирания RDD.

Винаги е мързелив, така че те не изчисляват резултатите си. Вместо извикване на функция за трансформация създава само нов RDD.

Целият набор от гореспоменатите трансформации се изпълняват, когато се извика действие.

В Spark има много трансформации – map(), filter(), KeyBy(), Join(), groupByKey(), sort().

 Действие

Действията са методи, които приемат RDD и извършват изчисление и връщат резултата на приложението на драйвера.

Действието задейства изчисляването на трансформациите и резултатите могат да бъдат колекция, стойности на екрана, стойности, запазени във файл.

Действието никога няма да върне RDD.

Предимства

  • Простота
  • Универсалност
  • Намален дисков вход/изход
  • Съхранение
  • Многоезичен
  • Независимост на мениджъра на ресурси
  • Интерактивна обвивка (REPL)

Spark, подобно на други инструменти за големи данни, той е мощен, способен и подходящ за справяне с редица предизвикателства, свързани с анализи и големи данни.

Тази статия първоначално се появи тук. Препубликувано с разрешение. Изпратете жалбите си за авторски права тук.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. SQL оператор за сравнение

  2. Изкуство за изолиране на зависимости и данни при тестване на единици от база данни

  3. SQL по-малко или равно на (=) оператор за начинаещи

  4. Обявяване на общата наличност на SQL Safe Backup 8.7.2

  5. Какво е T-SQL?