MongoDB
 sql >> база данни >  >> NoSQL >> MongoDB

Как MongoDB обработва дължината на документа в текстов индекс и текстов резултат?

Точкуването се основава на броя на съвпаденията, но има и вграден коефициент, който коригира резултата за мачове спрямо общата дължина на полето (с премахнати стоп думи). Ако вашият по-дълъг текст включва по-подходящи думи за заявка, това ще увеличи резултата. По-дълъг текст, който не съответства на заявка, ще намали резултата.

Фрагмент от изходния код на MongoDB 3.2 в GitHub (src/mongo/db/fts/fts_spec.cpp ):

   for (ScoreHelperMap::const_iterator i = terms.begin(); i != terms.end(); ++i) {
        const string& term = i->first;
        const ScoreHelperStruct& data = i->second;

        // in order to adjust weights as a function of term count as it
        // relates to total field length. ie. is this the only word or
        // a frequently occuring term? or does it only show up once in
        // a long block of text?

        double coeff = (0.5 * data.count / numTokens) + 0.5;

        // if term is identical to the raw form of the
        // field (untokenized) give it a small boost.
        double adjustment = 1;
        if (raw.size() == term.length() && raw.equalCaseInsensitive(term))
            adjustment += 0.1;

        double& score = (*docScores)[term];
        score += (weight * data.freq * coeff * adjustment);
        verify(score <= MAX_WEIGHT);
    }
}

Настройване на някои тестови данни, за да видите ефекта от коефициента на дължина върху много прост пример:

db.articles.insert([
    { headline: "Rock" },
    { headline: "Rocks" },
    { headline: "Rock paper" },
    { headline: "Rock paper scissors" },
])

db.articles.createIndex({ "headline": "text"})

db.articles.find(
    { $text: { $search: "rock" }},
    { _id:0, headline:1, score: { $meta: "textScore" }}
).sort({ score: { $meta: "textScore" }})

Анотирани резултати:

// Exact match of raw term to indexed field
// Coefficent is 1, plus 0.1 bonus for identical match of raw term
{
  "headline": "Rock",
  "score": 1.1
}

// Match of stemmed term to indexed field ("rocks" stems to "rock")
// Coefficent is 1
{
  "headline": "Rocks",
  "score": 1
}

// Two terms, one matching
// Coefficient is 0.75: (0.5 * 1 match / 2 terms) + 0.5
{
  "headline": "Rock paper",
  "score": 0.75
}

// Three terms, one matching
// Coefficient is 0.66: (0.5 * 1 match / 3 terms) + 0.5
{
  "headline": "Rock paper scissors",
  "score": 0.6666666666666666
}


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Денормализация на данни в MongoDB

  2. Как да извлечете NumberLong данни от Mongodb с помощта на Node.js?

  3. Условно размотаване в агрегацията на MongoDb?

  4. Spring-data-mongo не може да инстанцира java.util.List с помощта на Constructor

  5. MongoDB - Развийте масив с помощта на агрегиране и премахнете дубликатите