MongoDB
 sql >> база данни >  >> NoSQL >> MongoDB

Защо конекторът Mongo Spark връща различни и неправилни стойности за заявка?

Реших проблема си. Причината за непоследователните преброявания беше MongoDefaultPartitioner който обвива MongoSamplePartitioner който използва произволна извадка. Честно казано, това е доста странно по подразбиране за мен. Аз лично бих предпочел вместо това да имам бавен, но последователен разделител. Подробностите за опциите за дялове могат да бъдат намерени в официалните опции за конфигуриране документация.

код:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. как да използвам Spark-submit конфигурация:буркани, пакети:в клъстерен режим?

  2. Не мога да се удостоверя на mongodb с PHP

  3. Meteor / ReactJS - Проблем с мигане на потребителския интерфейс:изобразяване два пъти преди и след проверка на база данни

  4. Подреждане на набор от резултати произволно в mongo

  5. Javascript momentjs конвертира UTC от низ в Date Object