使用自定义爬虫访问所有分页页面

我已经使用jsoup构建了一个自定义爬网程序。我可以从特定的列表页面中删除所有数据。但对于有分页的页面，我如何从分页元素获取链接。就像任何在亚马逊，易趣等存在的零售目录一样，我将产品列表的第一页的URL传递给jsoup。它工作正常。但是，我如何自动化获取剩余页面链接的过程。使用自定义爬虫访问所有分页页面

我知道我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方式来做到这一点。

来源

2013-02-08 user1911956

什么用分页意思？ – 2014-08-10 15:16:34

如果网站标注的分页链接与rel="next"，你可以按照这些链接以获取进一步的页面。

除此之外，没有什么在它指定分页页面之间的关系的HTML本身。您必须使用启发式（例如，包含“next”的文本的链接或带有递增数字（1，2，3 ... last）的链接序列）。很显然，这些启发式不会为每个站点工作，当一个网站的设计更新可能会停止工作。

来源

2014-05-24 22:06:35

for (int i = 1; i < 10; i++) { 
     String url = "http://exampleurl.com/index.php?page=" + i; 
     Document doc = Jsoup.connect(url).get(); 
    }

希望这会带来一些亮点。该代码将循环浏览网页中的十个页面并进行分页。

来源

2018-03-10 16:03:12 webscrapingtech

使用自定义爬虫访问所有分页页面

回答

相关问题