Q

空的Nutch爬行列表

2010-12-18 48 views 0 likes

0

我试图在Eclipse中使用Nutch进行爬网。空的Nutch爬行列表

我使用了一个叫做的URL文件，它包含

http://www.google.com/

然而，当我运行该项目，发电机类却对我说：选择获取

“0条记录，退出“

我该如何解决这个问题？

我已经按照这些单证：

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

任何帮助将不胜感激。

2010-12-18 Lajos Arpad

A

回答

1

我最近遇到了这个问题，发现大多数回复都关注（regex | crawl）-urlfiters.txt。另一件要检查的是你的'-topN'设置。这需要足够大以使发生器通过所有过滤器。

我希望这会有所帮助。

2012-07-25 23:38:55 cloksmith

0

它最有可能是你的regex-urlfilter.xml。尝试使用这个，看看它是否解决了这个问题

- ^（文件| FTP |邮寄地址）：

- （GIF | GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | DOC | MP3 | MP3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP）$

- 。*（/ [^ /] +）/ [^ /] + \ 1/[^ /] + \ 1/

+。

2011-02-04 06:49:56 Slick86

相关问题