Java може да съхранява ЦЕЛИЯ валиден Unicode текст. Вътрешно използва UTF-16.
Ако конфигурирате правилно целия път на данните, целият текст ще бъде запазен. Трябва да гарантирате:
- Правилният низ достига до Java (в случай на уеб приложения, кодирането на знаците на изпращания формуляр).
- Java знае, че трябва да говори с базата данни в UTF-8 и базата данни знае, че трябва да очаква UTF-8 чрез връзката. Вие гарантирате това, когато настройвате връзката с базата данни.
- Данните се съхраняват като UTF-8 в базата данни.
Имайте предвид, че [документацията за MySQL] твърди UTF-8 не може да съхранява знаци извън основната многоезична равнина (всички "нормални" знаци се намират в BMP). Самият UTF-8 е идеално способен да съхранява всички уникод знаци и базата данни трябва да може да кодира и тези знаци.
Самата Java е наред - само не забравяйте, че някои редки уникод знаци всъщност са два знака (наречени сурогатна двойка ) в Java.