tl;dr Не, те не са валидни, каквото и кодиране да е било бъгово или е получила грешна информация за кодиране за входа.
55357 и 56842 са съответно 0xD83D и 0xDE0A в шестнадесетичен формат.
В Unicode те са в диапазони, наречени съответно „Висок сурогат“ и „Нисък сурогат“.
Това означава, че не са правилни Unicode кодови точки, а по-скоро използвани в UTF-16 за конструиране на единична Unicode стойност, която не се вписва в 16 бита (т.е. основната многоезична равнина).
Тези две конкретни стойности се декодират до U+1F60A УСМИХНАТО ЛИЦЕ С УСМИХНАТИ ОЧИ . Правилният десетичен HTML обект за това би бил 😊
.
Най-вероятната причина за това е, че някаква трансформация, която или не знае за UTF-16, или мисли този текст не е UTF-16, извърши кодирането (но трябваше да открие, че тези стойности са невалидни и да съобщи за грешка дори в този случай).