Mysql
 sql >> база данни >  >> RDS >> Mysql

Вземете най-повтарящите се подобни полета в базата данни на MySQL

Това, за което говорите, е процес на клъстериране на текст. Опитвате се да намерите подобни части от текст и произволно избирате един от тях. Не съм запознат с никоя база данни, която извършва тази форма на извличане на текст.

За това, което описвате, една доста основна техника за извличане на текст вероятно ще работи. Създайте матрица на термин-документ с всички думи с изключение на потребителските имена. След това използвайте декомпозиция на единична стойност, за да получите най-голямата сингулярна стойност и вектор (това е първият основен компонент на корелационната матрица). Подобни дейности трябва да се групират по тази линия.

Ако имате ограничен речник и имате термините в таблица, можете да измерите разстоянието между две действия чрез съотношението на думите, които се припокриват. Имате ли списък с всички думи в действията?



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Как да подобрим производителността на INSERT в много голяма MySQL таблица

  2. yii2 как да използвате търсене с sqldataProvider

  3. Yii2 показва данни, използващи за всеки цикъл

  4. Как да изтриете дубликати в MySQL таблица

  5. Функция MySQL ATAN() – Връща дъгата на тангенса на стойност (или стойности)