2013-02-08 81 views
3

我已经使用jsoup构建了一个自定义爬网程序。我可以从特定的列表页面中删除所有数据。但对于有分页的页面,我如何从分页元素获取链接。就像任何在亚马逊,易趣等存在的零售目录一样,我将产品列表的第一页的URL传递给jsoup。它工作正常。但是,我如何自动化获取剩余页面链接的过程。使用自定义爬虫访问所有分页页面

我知道我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方式来做到这一点。

+0

什么用分页意思? – 2014-08-10 15:16:34

回答

0

如果网站标注的分页链接与rel="next",你可以按照这些链接以获取进一步的页面。

除此之外,没有什么在它指定分页页面之间的关系的HTML本身。您必须使用启发式(例如,包含“next”的文本的链接或带有递增数字(1,2,3 ... last)的链接序列)。很显然,这些启发式不会为每个站点工作,当一个网站的设计更新可能会停止工作。

1
for (int i = 1; i < 10; i++) { 
     String url = "http://exampleurl.com/index.php?page=" + i; 
     Document doc = Jsoup.connect(url).get(); 
    } 

希望这会带来一些亮点。该代码将循环浏览网页中的十个页面并进行分页。