我试图在Eclipse中使用Nutch进行爬网。空的Nutch爬行列表
我使用了一个叫做的URL文件,它包含
然而,当我运行该项目,发电机类却对我说:选择获取
“0条记录,退出“
我该如何解决这个问题?
我已经按照这些单证:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何帮助将不胜感激。
我试图在Eclipse中使用Nutch进行爬网。空的Nutch爬行列表
我使用了一个叫做的URL文件,它包含
然而,当我运行该项目,发电机类却对我说:选择获取
“0条记录,退出“
我该如何解决这个问题?
我已经按照这些单证:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何帮助将不胜感激。
我最近遇到了这个问题,发现大多数回复都关注(regex | crawl)-urlfiters.txt。另一件要检查的是你的'-topN'设置。这需要足够大以使发生器通过所有过滤器。
我希望这会有所帮助。
它最有可能是你的regex-urlfilter.xml。尝试使用这个,看看它是否解决了这个问题
- ^(文件| FTP |邮寄地址):
- (GIF | GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | DOC | MP3 | MP3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP)$
- 。*(/ [^ /] +)/ [^ /] + \ 1/[^ /] + \ 1/
+。