Вашето подозрение е правилно, това е проблем с размера на купчина или по-точно ограничение за мащабируемост. Направо от често задаваните въпроси на carrot2:http://project.carrot2.org/faq.html#scalability
Как се мащабира клъстерирането на Carrot2 по отношение на броя и дължината на документите? Най-важната характеристика на алгоритмите на Carrot2, която трябва да имате предвид, е, че те извършват клъстериране в паметта. Поради тази причина, като правило, Carrot2 трябва успешно да работи с до хиляда документи, по няколко абзаца. За алгоритми, предназначени да обработват милиони документи, може да искате да разгледате проекта Mahout.
Разработчик също публикува за това тук:https://stackoverflow.com/a/28991477
Въпреки че разработчиците препоръчват Mahout и това вероятно е начинът, по който трябва да отидете, тъй като няма да сте обвързани с ограниченията за клъстериране в паметта, както в carrot2, може да има и други възможности:
-
Ако наистина харесвате carrot2, но не се нуждаете непременно от k-средни, можете да разгледате рекламния Lingo3G, базиран на полето „Време на групиране на 100 000 фрагмента [s]“ и забележката (***) на http://carrotsearch.com/lingo3g-comparison трябва да може да се справи с повече документи. Проверете и техния запис с често задавани въпроси за "Какъв е максималният брой документи, които Lingo3G може да клъстер?" на http://carrotsearch.com/lingo3g-faq
-
Опитайте се да минимизирате размера на вашите етикети, върху които k-means извършва групирането. Вместо да обединявате цялото съдържание на документи, опитайте се да групирате резюмето/обобщението или извлечете важни ключови думи и групирайте върху тях.