Това, за което говорите, е процес на клъстериране на текст. Опитвате се да намерите подобни части от текст и произволно избирате един от тях. Не съм запознат с никоя база данни, която извършва тази форма на извличане на текст.
За това, което описвате, една доста основна техника за извличане на текст вероятно ще работи. Създайте матрица на термин-документ с всички думи с изключение на потребителските имена. След това използвайте декомпозиция на единична стойност, за да получите най-голямата сингулярна стойност и вектор (това е първият основен компонент на корелационната матрица). Подобни дейности трябва да се групират по тази линия.
Ако имате ограничен речник и имате термините в таблица, можете да измерите разстоянието между две действия чрез съотношението на думите, които се припокриват. Имате ли списък с всички думи в действията?