PostgreSQL
 sql >> база данни >  >> RDS >> PostgreSQL

Използване на pyspark за свързване с PostgreSQL

Изтеглете PostgreSQL JDBC драйвера от https://jdbc.postgresql.org/download.html

След това заменете стойностите на конфигурацията на базата данни с вашите.

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.jars", "/path_to_postgresDriver/postgresql-42.2.5.jar") \
    .getOrCreate()

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/databasename") \
    .option("dbtable", "tablename") \
    .option("user", "username") \
    .option("password", "password") \
    .option("driver", "org.postgresql.Driver") \
    .load()

df.printSchema()

Повече информация:https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Относно pglogical производителност

  2. PostgreSQL Създаване на база данни

  3. Съпоставяне на тип PostgreSQL text[][] и тип Java

  4. Паралелен unnest() и ред на сортиране в PostgreSQL

  5. Не мога да инсталирам pg gem на Windows