Отговарям на собствения си въпрос, тъй като успях да избегна сривовете. Все още обаче имам проблеми с вторични грешки и стартирах нова тема със спецификата.
Моят код за възстановяване вече обработва вторичните грешки по различен начин. Той ще опита повторно блокиране няколко пъти, но само докато грешката е блокиране. Ако възникне някакъв друг тип грешка, приложението ще се откаже.
Въпреки че това означава, че разочарованите потребители получават грешки, не съм имал срив на клъстера след тази промяна и не съм виждал страховитата грешка „сървърът е изчезнал“.