Вземете източник от http://mirror.nyi.net /apache//nutch/apache-nutch-1.2-src.zip
Отворете org.apache.nutch.crawl.Crawl
клас във вашия редактор.
Променлива за търсене Path crawlDb = new Path(dir + "/crawldb");
Променливата ще даде намек къде да замените кода, за да получите свой собствен CustomMySQLCrawl
клас.
Постоянството се случва по време на това извикване:crawlDbTool.update(crawlDb, segs, true, true); // update crawldb
Така че има къде трябва да го запишете в базата данни. Може да помислите за интегриране на хибернация в този момент.