MongoDB
 sql >> база данни >  >> NoSQL >> MongoDB

как да запазя dataframe в mongodb с помощта на pyspark?

Ефикасен начин за запис в mongodb от pyspark е да използвате MongoDB Spark Connector . Connector ще преобразува данните във формат BSON и ще ги запише в mongodb. Да приемем, че имате spark dataframe с име df, който искате да запишете в mongodb. Можете да опитате:

from pyspark.sql import SparkSession, SQLContext
from pyspark import SparkConf, SparkContext
sc = SparkContext()
spark = SparkSession(sc)   


df.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").option("spark.mongodb.output.uri","mongodb://username:[email protected]_details:27017/db_name.collection_name?authSource=admin").save()

Ако използвате бележник, напишете това най-отгоре-

%%configure
{"conf": {"spark.jars.packages": "org.mongodb.spark:mongo-spark-connector_2.11:2.3.2"}}

Ако използвате командата spark-submit:

spark-submit --conf spark.pyspark.python=/usr/bin/anaconda/envs/py35/bin/python3.5 --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 file_name.py


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Защо новите документи в mongo имат обект, а не ObjectId?

  2. Преместване на HDFS данни в MongoDB

  3. MongoDB Изключение:Сървърът отчита кабелна версия 0, но версията на libmongoc изисква поне 3

  4. 2 начина да получите размера на документа в MongoDB

  5. mongoexport E QUERY SyntaxError:Неочакван идентификатор