MongoDB
 sql >> база данни >  >> NoSQL >> MongoDB

Същата дума, но различни уникод знаци

Проблемът, който срещате, е, че unicode позволява множество начини за съставяне на един и същ символ. Модулът на Python unicodedata предоставя функция normalize който ви позволява да конвертирате unicode представяния във фиксирана форма (напр. NFC)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

Във вашия пример tripadvisor се показва в NFD форма, докато notepad използва NFC.




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. NodeJS/Mongoose/MongoDB - Изтегляне (от масив) не работи

  2. Как мога да създам уникални идентификатори за вградени документи в MongoDB?

  3. MongoDB (сървър v 2.6.7) с C# драйвер 2.0:Как да получите резултата от InsertOneAsync

  4. Инсталирайте MongoDB на Windows

  5. db.collection не е функция, когато използвате MongoClient v3.0