2
我们可以使用海葵爬网(如:https://stackoverflow.com/
),但如果我只想专注于某个文件夹(例如:https://stackoverflow.com/questions
),该怎么办?我怎样才能做到这一点 ?也许用“focus_crawl”方法?如何只使用海葵抓取子文件夹
我们可以使用海葵爬网(如:https://stackoverflow.com/
),但如果我只想专注于某个文件夹(例如:https://stackoverflow.com/questions
),该怎么办?我怎样才能做到这一点 ?也许用“focus_crawl”方法?如何只使用海葵抓取子文件夹
检查keep_if方法可能是这有助于
http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1
尝试,只要你想爬
也有一个要点https://gist.github.com/1149906传递模式。
注:我没有测试过,但你可以肯定试试。
谢谢PriteshJ,但我终于找到了答案。我使用'on_pages_like'而不是'on_every_page'这样的模式:'on_pages_like(/ http:\/\/stackoverflow.com \/questions \ /。)',它运行良好。再次感谢你 – 2012-08-08 18:03:57
然后我建议你给这个问题添加自己的答案,并将其标记为已接受。 :) – PriteshJ 2012-08-08 18:12:36