crawler4j重新抓取网站无法正常工作

我正在使用crawler4j库抓取某些网站，但当我打电话两次时，我遇到了问题。它只是第一次工作。第二次不给出任何错误，但它什么都不做。crawler4j重新抓取网站无法正常工作

我认为图书馆正在保存抓取的网址，这就是为什么我不能打电话。

我看到了一些信息，但不是解决办法...提前

http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions

感谢，

冬眠。

2013-10-14 Hibernator

您的抓取存储文件夹是在第一次写入之后，此外，此文件不能自动删除（重新抓取），因为对文件的访问被拒绝，所以第二次，程序检查此文件并认为所有网址都被抓取。您应该编辑crawler4j以完全关闭对抓取存储文件夹的访问。关注此： https://code.google.com/p/crawler4j/issues/detail?id=157

来源

2013-11-01 12:50:50

crawler4j重新抓取网站无法正常工作

回答

相关问题