MySQL Workbench
 sql >> база данни >  >> Database Tools >> MySQL Workbench

Получих грешка в размера на java heap при опит за групиране на 15980 документа чрез carrot2workbench

Вашето подозрение е правилно, това е проблем с размера на купчина или по-точно ограничение за мащабируемост. Направо от често задаваните въпроси на carrot2:http://project.carrot2.org/faq.html#scalability

Как се мащабира клъстерирането на Carrot2 по отношение на броя и дължината на документите? Най-важната характеристика на алгоритмите на Carrot2, която трябва да имате предвид, е, че те извършват клъстериране в паметта. Поради тази причина, като правило, Carrot2 трябва успешно да работи с до хиляда документи, по няколко абзаца. За алгоритми, предназначени да обработват милиони документи, може да искате да разгледате проекта Mahout.

Разработчик също публикува за това тук:https://stackoverflow.com/a/28991477

Въпреки че разработчиците препоръчват Mahout и това вероятно е начинът, по който трябва да отидете, тъй като няма да сте обвързани с ограниченията за клъстериране в паметта, както в carrot2, може да има и други възможности:

  1. Ако наистина харесвате carrot2, но не се нуждаете непременно от k-средни, можете да разгледате рекламния Lingo3G, базиран на полето „Време на групиране на 100 000 фрагмента [s]“ и забележката (***) на http://carrotsearch.com/lingo3g-comparison трябва да може да се справи с повече документи. Проверете и техния запис с често задавани въпроси за "Какъв е максималният брой документи, които Lingo3G може да клъстер?" на http://carrotsearch.com/lingo3g-faq

  2. Опитайте се да минимизирате размера на вашите етикети, върху които k-means извършва групирането. Вместо да обединявате цялото съдържание на документи, опитайте се да групирате резюмето/обобщението или извлечете важни ключови думи и групирайте върху тях.



  1. DBeaver
  2.   
  3. phpMyAdmin
  4.   
  5. Navicat
  6.   
  7. SSMS
  8.   
  9. MySQL Workbench
  10.   
  11. SQLyog
  1. Mysql Workbench Mac OS липсват инструменти за управление и импортиране/експорт на данни

  2. Получаване на съдържанието на изглед Eclipse RCP

  3. Добавете ограничение за стойности, Mysql

  4. Приложението org.eclipse.e4.ui.workbench.swt.E4 Приложението не може да бъде намерено в системния регистър

  5. Преместване на връзки и екземпляри между два компютъра