Mysql
 sql >> база данни >  >> RDS >> Mysql

AWS EMR PySpark се свързва с mysql

Ако искате да стартирате Spark Job на Amazon EMR 3.x или EMR 4.x, трябва да направите следните неща:

1) Можете да споменете spark-defaults.conf свойства по време на стартиране, т.е. можете да промените конфигурацията на Driver Classpath и Executor Classpath свойство, а също и maximizeResourceAllocation (Попитайте за повече информация в коментарите, ако имате нужда.) документи

2) Трябва да изтеглите всички необходими буркани, т.е. (mysql-connector.jar и mariadb-connector.jar) във вашия случай MariaDB и MySQL конектор JDBC буркани до всички местоположения на клас пътеки като Spark, Yarn и Hadoop на всички възли или него е MASTER, CORE или TASK (Сценарият Spark On Yarn обхваща повечето) документи за стартиращи скриптове

3) И ако вашето Spark Job комуникира само от Driver node към вашата база данни, тогава може да се нуждаете само от --jars и няма да ви даде изключение и работи добре.

4) Също така ви препоръчваме да опитате Master като прежда-клъстер вместоместен или yarn-client

Във вашия случай, ако използвате MariaDB или MySQL или копирайте бурканите си в $SPARK_HOME/lib , $HADOOP_HOME/lib и т.н. на всеки възел на вашия клъстер и след това опитайте.

По-късно можете да използвате действия на Bootstrap за да копирате вашите буркани на всички възли, докато изтече времето за създаване на клъстер.

Моля, коментирайте по-долу за повече информация.




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Отмяна на MySQL на двигателя MyISAM

  2. Най-добрият начин за търсене между стойности в db

  3. Jetty 7 + MySQL Config [java.lang.ClassNotFoundException:org.mortbay.jetty.webapp.WebAppContext]

  4. Как да създадете/поддържате ID поле в Sequel Pro чрез Ruby и mysql2

  5. Сравняване на периоди от време