Мисля, че открих проблема:mongodb-hadoop има "статичен" модификатор на своите екземпляри на BSON енкодер/декодер в core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Когато Spark работи в многонишков режим, всички нишки се опитват и десериализират, като използват същия екземпляри на енкодер/декодер, което предвидимо има лоши резултати.
Корекция в моя github тук (са изпратили заявка за изтегляне нагоре)
Вече мога да стартирам 8-ядрен многонишков Spark->mongo collection count() от Python!