Spark JDBC API изглежда се разклонява, за да зареди всички данни от MySQL таблицата в паметта без. Така че, когато се опитате да заредите голяма таблица, това, което трябва да направите, е първо да използвате клонирани данни на Spark API към HDFS (JSON трябва да се използва за запазване на структурата на схемата), както следва:
spark.read.jdbc(jdbcUrl, tableName, prop)
.write()
.json("/fileName.json");
След това можете да работите нормално с HDFS.
spark.read().json("/fileName.json")
.createOrReplaceTempView(tableName);