Ако искате да промените (изтриете записи) действителния източник на данни, т.е. таблици в postgres, тогава Spark не би бил чудесен начин. Можете да използвате jdbc клиент директно за постигане на същото.
Ако все пак искате да направите това (по разпределен начин въз основа на някои улики, които изчислявате като част от кадри с данни); можете да имате един и същ jdbc клиентски код, написан в съответствие с dataframe, който има информация за логика/задействане за изтриване на записи и който можем да изпълним паралелно на множество работници.