Mysql
 sql >> база данни >  >> RDS >> Mysql

Релевантността на пълнотекстово търсене се измерва в?

Основната структура на данни за система за извличане на текст е Обърнат индекс . Това по същество е списък с думи, намерени в колекцията от документи, със списък на документите, в които се срещат. Може също да има метаданни за появата за всеки документ, като например броя на появяването на думата.

Документи, съдържащи думите, могат да бъдат търсени чрез съпоставяне на думите за търсене. За да се определи уместността, евристика, известна като Cosine Ranking се изчислява върху попаденията. Това работи чрез конструиране на n-мерен вектор с един компонент за всеки от n термина за търсене. Можете също да претеглите думите за търсене, ако желаете. Този вектор дава точка в n-мерното пространство, която съответства на вашите думи за търсене.

Подобен вектор, базиран на претеглените поява във всеки документ, може да бъде конструиран от обърнатия индекс с всяка ос във вектора, съответстваща на оста за всеки термин за търсене. Ако изчислите точково произведение на тези вектори, ще получите косинус на ъгъла между тях. 1.0 е еквивалентно на cos (0), което предполага, че векторите заемат обща линия от началото. Колкото по-близо са векторите един до друг, толкова по-малък е ъгълът и толкова по-близо е косинусът до 1.0.

Ако сортирате резултатите от търсенето по косинус (или ги поставите в приоритетна опашка като mg прави) получавате най-подходящото. По-умните алгоритми за уместност са склонни да се занимават с тежестите на думите за търсене, изкривявайки точковия продукт в полза на термини с висока релевантност.

Ако искате да поразровите малко, Управление на гигабайти от Bell и Moffet обсъжда вътрешната архитектура на системите за извличане на текст.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Автоматично връщане назад, ако COMMIT TRANSACTION не бъде достигната

  2. Научете основни SQL заявки с помощта на MySQL

  3. импортиране на sql файл в база данни с помощта на wamp

  4. Въведение в отказоустойчивостта за MySQL репликация - блогът 101

  5. търсене от множество таблици с помощта на една ключова дума в mysql