Ако вашите данни са като тези
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])
можете да използвате len(x)
като условието на филтъра:
tweets.filter(lambda x: len(x) > 0).count()
Ако вашите данни са като тези
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])
можете да използвате len(x)
като условието на филтъра:
tweets.filter(lambda x: len(x) > 0).count()