我想根据索引页上的数据或信息来编写抓取某些页面的蜘蛛。然后将结果存储在数据库中。如何基于索引页上的信息来抓取网页
例如,让说,我想爬stackoverflow.com/questions/tagged/scrapy 我会去通过索引页面,如果这个问题是不是在我的数据库,那么我会保存回答次数在数据库,然后按照问题的链接并抓取该页面。
如果问题已经存在于数据库中,但答案数大于数据库中的问题:再次抓取该页。
如果问题已经在数据库中并且答案计数器是相同的:请跳过此问题。
目前我可以在索引页面上获得所有链接和答案数(在本例中)。 但我不知道如何让蜘蛛跟随回答计数问题页面的链接。
有没有办法用一个蜘蛛,而不是有两个蜘蛛要做到这一点,一个蜘蛛越来越索引页上的所有环节,与数据库中的数据进行比较,输出一个JSON或CSV文件,然后将其传递到另一个蜘蛛爬行问题页面?
当蜘蛛运行时,我可以动态地在start_urls列表中添加URL吗?在你的例子中,蜘蛛开始抓取第一个问题页面,但它不会继续到第二个页面。我可以在第一页上添加第二页到start_urls基础上吗?例如,如果第一页的最后一个问题不在我的数据库中,这意味着第二页上可能会有更多新问题,这些问题我还没有涉及。所以我应该去第二页查看。我能以某种方式在蜘蛛运行时将新网址附加到start_urls上吗? – user1499532 2012-10-06 17:20:36