В MongoDB, $indexOfCP
Операторът на тръбопровода за агрегиране търси низ за среща на подниз и връща индекса на кодовата точка на UTF на първото появяване.
Индексът на кодовата точка на UTF е базиран на нула (т.е. започва от 0
).
Синтаксис
Синтаксисът е така:
{ $indexOfCP: [ <string expression>, <substring expression>, <start>, <end> ] }
Къде:
<string expression>
е низът за търсене.<substring expression>
е поднизът, който искате да намерите в низа.<start>
е незадължителен аргумент, който определя начална позиция на индекса за търсене. Може да бъде всеки валиден израз, който се разрешава до неотрицателно цяло число.<end>
е незадължителен аргумент, който определя крайна индексна позиция за търсенето. Може да бъде всеки валиден израз, който се разрешава до неотрицателно цяло число.
Ако посочената стойност не е намерена, $indexOfCP
връща -1
.
Ако има няколко екземпляра на посочената стойност, се връща само първият.
Пример
Да предположим, че имаме колекция, наречена test
със следните документи:
{ "_id" : 1, "data" : "c 2021" } { "_id" : 2, "data" : "© 2021" } { "_id" : 3, "data" : "ไม้เมือง" }
Ето пример за прилагане на $indexOfCP
към тези документи:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 1, 2, 3 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "2021" ] }
}
}
]
)
Резултат:
{ "data" : "c 2021", "result" : 2 } { "data" : "© 2021", "result" : 2 } { "data" : "ไม้เมือง", "result" : -1 }
В първите два документа поднизът е намерен в позиция на индекса на кодовата точка на UTF 2
. Даден е $indexOfCP
резултатите са базирани на нула (индексът започва от 0
) позицията 2 представлява третата кодова точка.
Това е различен резултат от този, който бихме получили, ако използваме $indexOfBytes
, тъй като символът за авторско право (©
) във втория документ заема 2 байта. Но използва само една кодова точка, която е същата като буквата c
използва.
По отношение на третия документ поднизът изобщо не беше намерен и така резултатът е -1
.
Ето още един пример, освен че този път търсим тайландски знак:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 1, 2, 3 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "เ" ] }
}
}
]
)
Резултат:
{ "data" : "c 2021", "result" : -1 } { "data" : "© 2021", "result" : -1 } { "data" : "ไม้เมือง", "result" : 3 }
В този случай потърсихме знак, който е в третия документ и неговият индекс на кодовата точка UTF-8 се връща като 3
. Даден е $indexOfCP
резултатите са базирани на нула, това означава, че това е четвъртата кодова точка.
Това е така, защото вторият знак има диакритичен знак, който също е кодова точка. Следователно първият знак е една кодова точка, а вторият знак е две кодови точки (включително диакритиката), което е равно на три. Това означава, че нашият символ започва от четвърта позиция (която е номер на кодова точка 3
). , поради броя на индексите, започващ от 0
).
Вижте MongoDB $strLenCP
за пример, който връща броя на кодовите точки за всеки знак в този конкретен низ. И вижте MongoDB $strLenBytes
за да видите броя на байтовете в същия низ.
Посочете начална позиция
Можете да предоставите трети аргумент, за да посочите начална позиция на индекса за търсене.
Да предположим, че имаме следния документ:
{ "_id" : 4, "data" : "ABC XYZ ABC" }
Ето пример за прилагане на $indexOfCP
с изходна позиция:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 4 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "ABC", 1 ] }
}
}
]
)
Резултат:
{ "data" : "ABC XYZ ABC", "result" : 8 }
В този случай вторият екземпляр на подниз беше върнат. Това е така, защото започнахме търсенето на позиция 1
, а първият екземпляр на подниза започва от позиция 0
(преди началната позиция за търсене).
Ако началната позиция е число, по-голямо от низа или по-голямо от крайната позиция, $indexOfCP
връща -1
.
Ако е отрицателно число, $indexOfCP
връща грешка.
Посочете крайна позиция
Можете също да предоставите четвърти аргумент, за да посочите крайната позиция на индекса за търсене.
Ако предоставите този аргумент, трябва да посочите и начална позиция. Ако не го направите, този аргумент ще бъде интерпретиран като отправна точка.
Пример:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 4 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "XYZ", 0, 3 ] }
}
}
]
)
Резултат:
{ "data" : "ABC XYZ ABC", "result" : -1 }
Резултатът е -1
което означава, че поднизът не е намерен. Това е така, защото започнахме търсенето на позиция 0
и го завърши на позиция 3
, следователно не улавя подниз.
Ето какво се случва, ако увеличим позицията на крайния индекс:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 4 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "XYZ", 0, 5 ] }
}
}
]
)
Резултат:
{ "data" : "ABC XYZ ABC", "result" : 4 }
Този път стойността беше включена и нейната индексна позиция беше върната.
Ако крайната позиция е число, по-малко от началната позиция, $indexOfCP
връща -1
.
Ако е отрицателно число, $indexOfCP
връща грешка.
Липсващи полета
Ако полето не е в документа, $indexOfCP
връща null
.
Да предположим, че имаме следния документ:
{ "_id" : 5 }
Ето какво се случва, когато приложим $indexOfCP
:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 5 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "XYZ" ] }
}
}
]
)
Резултат:
{ "result" : null }
Нулеви стойности
Ако първият аргумент е null
, $indexOfCP
връща null
.
Да предположим, че имаме следния документ:
{ "_id" : 6, "data" : null }
Ето какво се случва, когато приложим $indexOfCP
:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 6 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "XYZ" ] }
}
}
]
)
Резултат:
{ "data" : null, "result" : null }
Въпреки това, когато вторият аргумент (т.е. поднизът) е null
, се връща грешка:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 1 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", null ] }
}
}
]
)
Резултат:
uncaught exception: Error: command failed: { "ok" : 0, "errmsg" : "$indexOfCP requires a string as the second argument, found: null", "code" : 40094, "codeName" : "Location40094" } : aggregate failed : example@sqldat.com/mongo/shell/utils.js:25:13 example@sqldat.com/mongo/shell/assert.js:18:14 example@sqldat.com/mongo/shell/assert.js:639:17 example@sqldat.com/mongo/shell/assert.js:729:16 example@sqldat.com/mongo/shell/db.js:266:5 example@sqldat.com/mongo/shell/collection.js:1058:12 @(shell):1:1
Грешен тип данни
Ако първият аргумент е грешен тип данни (т.е. не се разрешава до низ), $indexOfCP
връща грешка.
Да предположим, че имаме следния документ:
{ "_id" : 7, "data" : 123 }
Ето какво се случва, когато приложим $indexOfCP
към този документ:
db.test.aggregate(
[
{ $match: { _id: { $in: [ 7 ] } } },
{
$project:
{
_id: 0,
data: 1,
result: { $indexOfCP: [ "$data", "XYZ" ] }
}
}
]
)
Резултат:
uncaught exception: Error: command failed: { "ok" : 0, "errmsg" : "$indexOfCP requires a string as the first argument, found: double", "code" : 40093, "codeName" : "Location40093" } : aggregate failed : example@sqldat.com/mongo/shell/utils.js:25:13 example@sqldat.com/mongo/shell/assert.js:18:14 example@sqldat.com/mongo/shell/assert.js:639:17 example@sqldat.com/mongo/shell/assert.js:729:16 example@sqldat.com/mongo/shell/db.js:266:5 example@sqldat.com/mongo/shell/collection.js:1058:12 @(shell):1:1
Както се казва в съобщението за грешка, $indexOfCP requires a string as the first argument
.