PostgreSQL
 sql >> база данни >  >> RDS >> PostgreSQL

Използване на Postgresql JDBC източник с Apache Spark на EMR

Мисля, че не е необходимо да копирате postgres jar в slaves, тъй като програмата на драйвера и мениджърът на клъстери се грижат за всичко. Създадох рамка с данни от външен източник на Postgres по следния начин:

Изтеглете Postgres драйвер jar :

cd $HOME && wget https://jdbc.postgresql.org/download/postgresql-42.2.5.jar

Създаване на рамка с данни :

atrribute = {'url' : 'jdbc:postgresql://{host}:{port}/{db}?user={user}&password={password}' \
        .format(host=<host>, port=<port>, db=<db>, user=<user>, password=<password>),
                 'database' : <db>,
                 'dbtable' : <select * from table>}
 df=spark.read.format('jdbc').options(**attribute).load()

Изпращане на задание на Spark: Добавете изтегления буркан към пътя на класа на драйвера, докато изпращате заданието на искра.

--properties spark.driver.extraClassPath=$HOME/postgresql-42.2.5.jar,spark.jars.packages=org.postgresql:postgresql:42.2.5 


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Форматиране на дата (ГГ:ММ:ДД:Час) в Excel

  2. n-ти процентил изчисления в postgresql

  3. Компресиране на текст в PostgreSQL

  4. Филтърът TypeORM OneToMany в релации не влияе върху резултата

  5. Postgres:командата vacuum не почиства мъртвите кортежи