AWS EMR PySpark се свързва с mysql

Ако искате да стартирате Spark Job на Amazon EMR 3.x или EMR 4.x, трябва да направите следните неща:

1) Можете да споменете spark-defaults.conf свойства по време на стартиране, т.е. можете да промените конфигурацията на Driver Classpath и Executor Classpath свойство, а също и maximizeResourceAllocation (Попитайте за повече информация в коментарите, ако имате нужда.) документи

2) Трябва да изтеглите всички необходими буркани, т.е. (mysql-connector.jar и mariadb-connector.jar) във вашия случай MariaDB и MySQL конектор JDBC буркани до всички местоположения на клас пътеки като Spark, Yarn и Hadoop на всички възли или него е MASTER, CORE или TASK (Сценарият Spark On Yarn обхваща повечето) документи за стартиращи скриптове

3) И ако вашето Spark Job комуникира само от Driver node към вашата база данни, тогава може да се нуждаете само от --jars и няма да ви даде изключение и работи добре.

4) Също така ви препоръчваме да опитате Master като прежда-клъстер вместоместен или yarn-client

Във вашия случай, ако използвате MariaDB или MySQL или копирайте бурканите си в $SPARK_HOME/lib , $HADOOP_HOME/lib и т.н. на всеки възел на вашия клъстер и след това опитайте.

По-късно можете да използвате действия на Bootstrap за да копирате вашите буркани на всички възли, докато изтече времето за създаване на клъстер.

Моля, коментирайте по-долу за повече информация.