在Java中刮去网站

我想要做的是拿出一个URL列表并下载每个URL的内容（用于索引）。最大的问题是，如果我遇到类似facebook事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的。我看着heritrix，但这似乎比我需要的方式。是否有一个更简单的工具，可以提供有关robots.txt的信息并相应地删除网站？在Java中刮去网站

（另外，我并不需要执行其他环节，并建立了深刻的指数，我只需要索引列表中的各个页面。）

来源

2010-07-07 smurthas

你可以只走班你有兴趣即http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html

来源

2010-07-07 18:22:09

我有点希望在一个包中做了更多的事情。 heritrix可能是正确的工作 - 也许我只需要更多的方向。 – smurthas 2010-07-07 19:00:54

很难通过索引来回答你的意思。如果它只是下载它。类URL和openConnection方法就是为此而完成的。请参阅http://download.oracle.com/docs/cd/E17476_01/javase/1.4.2/docs/api/java/net/URL.html#openConnection%28%29 – 2010-07-08 11:53:02

我期待做的不止一点只需下载它。我希望能够检查这是否是“有意义”的页面（即，它不在付费墙或登录屏幕等后面），然后下载该html，并最终提取用于索引的纯文本。现在最大的问题是弄清楚该页面是否有意义。 – smurthas 2010-07-09 03:22:04

在Java中刮去网站

回答

相关问题