2010-07-07 99 views
1

我想要做的是拿出一个URL列表并下载每个URL的内容(用于索引)。最大的问题是,如果我遇到类似facebook事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的。我看着heritrix,但这似乎比我需要的方式。是否有一个更简单的工具,可以提供有关robots.txt的信息并相应地删除网站?在Java中刮去网站

(另外,我并不需要执行其他环节,并建立了深刻的指数,我只需要索引列表中的各个页面。)

回答

1
+0

我有点希望在一个包中做了更多的事情。 heritrix可能是正确的工作 - 也许我只需要更多的方向。 – smurthas 2010-07-07 19:00:54

+0

很难通过索引来回答你的意思。如果它只是下载它。类URL和openConnection方法就是为此而完成的。请参阅http://download.oracle.com/docs/cd/E17476_01/javase/1.4.2/docs/api/java/net/URL.html#openConnection%28%29 – 2010-07-08 11:53:02

+0

我期待做的不止一点只需下载它。我希望能够检查这是否是“有意义”的页面(即,它不在付费墙或登录屏幕等后面),然后下载该html,并最终提取用于索引的纯文本。现在最大的问题是弄清楚该页面是否有意义。 – smurthas 2010-07-09 03:22:04