2013-10-14 29 views

回答

1

您的抓取存储文件夹是在第一次写入之后,此外,此文件不能自动删除(重新抓取),因为对文件的访问被拒绝,所以第二次,程序检查此文件并认为所有网址都被抓取。您应该编辑crawler4j以完全关闭对抓取存储文件夹的访问。关注此: https://code.google.com/p/crawler4j/issues/detail?id=157