MongoDB
 sql >> база данни >  >> NoSQL >> MongoDB

Заредете spark данни в Mongo / Memcached за използване от уеб услуга

Не можете да правите запитване към RDD директно по този начин. Мислете за работата си в Spark като за поточен процесор. Това, което можете да направите, е да изпратите актуализирания модел до някакъв "магазин", като база данни (с персонализиран API или JDBC), файлова система или memcached. Можете дори да направите извикване на уеб услуга от кода на Spark.

Каквото и да правите, внимавайте времето за обработка на всяка партида от данни, включително I/O, да е доста под зададения от вас интервал. В противен случай рискувате тесни места, които в крайна сметка може да се сринат.

Друго нещо, за което трябва да следите, е случаят, когато имате вашите данни за модел в повече от един RDD дял, разпръснат в клъстера (което е по подразбиране, разбира се). Ако редът на вашите „записи“ няма значение, тогава записването им паралелно е добре. Ако имате нужда от конкретна обща поръчка, изписана последователно (и данните наистина не са големи), извикайте collect за да ги поставите в една структура от данни в паметта във вашия код на драйвер (което ще означава мрежов трафик в разпределено задание), след което пишете от там.




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Индексът MongoDB, който не е чувствителен към главни и малки букви, започва с проблеми с производителността

  2. В MongoDB, как мога да намеря документ, който е вграден?

  3. Модел на съобщения в частен чат Mongoose

  4. Свързване и запитване към база данни на Mongo през SSH с частен ключ в Python

  5. Изграждане на mongo-cxx-driver с помощта на CMake ExternalProject_Add