WordNet е супер страхотна база данни с думи. Аз самият съм го проучвал. Ще изброя констатациите си по-долу - и се надявам, че ще ви помогнат да разберете по-добре таблиците.
Таблицата на Synset Таблицата synsets е една от най-важните таблици в базата данни. Той отговаря за поместването на всички дефиниции в WordNet. Всеки ред в таблицата на synset има синсетид, дефиниция, pos (поле за части на речта) и lexdomainid (който се свързва с таблицата на lexdomain) Има 117373 синсета в WordNet базата данни.
Таблица с думи WordNet също има таблица „words“, която има само две полета:wordid и „lemma“. Таблицата с думи е отговорна за поместването на всички леми (основни думи) в базата данни на Wordnet. В тази таблица има 146625 записа
И така... как са свързани тези две таблици? Отговорът? Сетивната таблица!
The Sense Table Таблицата на смисъла е отговорна за свързването на думите (в таблицата с думите), с дефинициите (в таблицата на synset). Записите в таблицата на смисъла се наричат „двойки дума-смисл“ - тъй като всяко сдвояване на wordid със синсет е едно пълно значение на думата – „смисъл на думата“.
В базата данни на WordNet има общо 206 354 значения на думите.
Таблицата Lexdomains Таблицата на Lexdomains се препраща от таблицата на смисъла и се използва за дефиниране на лексикален домейн, към който принадлежи двойката дума-смисл. В таблицата на lexdomains има 45 лексикални домейна. Следователно таблицата на lexdomain е начинът на WordNet за „маркиране“ на двойка дума-смисъл. То обаче е доста ограничено, тъй като една двойка дума-смисл може да принадлежи само на ЕДИН лексикален домейн.
45-те лексикални домейна включват:
Прилагателни имена: всички, разбира се
Наречия всички
Съществителни върхове, действие, животно, артефакт, атрибут, тяло, познание, комуникация, събитие, чувство, храна, група, местоположение, мотив, обект, човек, феномен, растение, притежание, процес, количество, linkdef, форма, състояние, вещество, време,
Глаголи тяло, промяна, познание, комуникация, конкуренция, консумация, контакт, създаване, емоция, движение, възприятие, притежание, социален, устойчив, време, ppl
Таблицата с casedwords Някои думи в таблицата с думи естествено имат първата буква с главна буква, т.е.:“A-eam”. Тъй като таблицата с думите съхранява всички думи като малки букви, WordNet използва тази таблица, за да посочи версията на думата с главни букви. В тази таблица има 40313 записа.
Има много други таблици в WordNet DB, след като ги проуча, ще публикувам отново.
Намиране на синоними За да отговорите на въпроса си относно синонимите - Трябва да направите следното.
Да приемем, че искате да намерите синонимите на думата "Carry". За да направите това, първо трябва да потърсите в таблицата с думи за лема, съответстваща на думата "carry". Това ще даде wordid 21253. След това ще потърсите в таблицата на сетивата, за да намерите всички двойки дума-смисл за думата носител. Това дава 41 резултата – всеки резултат изброява wordid 21253 и сензеид (който е индексът на двойката дума-смисл) и синсетид.
Сега ще трябва да потърсите таблицата на synset за всеки върнат синсетид, за да имате достъп до свързаното поле за дефиниция в таблицата synset.
И накрая, за да намерите синонимите за всеки от изброените синсетове, просто трябва да потърсите в таблицата на смисъла за други двойки смисъл на думи, които споделят същия синсет.
Пример:Една от 41-те двойки смисъл на думата за думата "нося" е изброена по-долу:Ако потърсим определението за този синсетид 202083512, ще откриете „предава или служи като среда за предаване“
За да намерите всички синоними за тази дефиниция, след това ще потърсите в сетивната таблица за същия синсетид 202083512. Това дава синоними:канал, провеждане, предаване, предаване и предаване (забележка:ще трябва да се присъедините наляво към таблицата с думи, за да получите действителните леми)
Надявам се това да ви помогне да демистифицирате WordNet. Намирам го за доста готино...