2016-04-29 48 views
-1

我正在使用html敏捷包创建网页刮板,我有一个关于分页的问题。 我通过网络搜索找到一些东西来帮助我转发,但我不在附近。我需要刮掉所有分页页面的内容。是否有任何机制来做到这一点使用htmlagility或任何帮助表示赞赏。 我还发现了其他应用程序,如硒和调查它。有没有一种方法可以利用硒以及可擦性以及刮擦? 任何形式的帮助将不胜感激。 谢谢使用HtmlAgilityPack刮网页分页

+0

您当然可以使用HtmlAgility页面来获取页面上的所有链接,包括分页链接,但是您的问题太宽泛而无法回答。你有什么尝试?这里有一个使用HtmlAgility包来抓取网站的例子:http://blog.abodit.com/2010/03/a-simple-web-crawler-in-c-using-htmlagilitypack/ –

+0

谢谢伊恩,我已经利用HAP刮网站,但我没有意识到与分页的东西。所以只是想得到新鲜的想法 – shunilkarki

+0

分页通常是作为一串链接(1 2 3 ... n)实现的,有时候会随着探索而发展(... 4 5 6 ...)或者你的意思是别的? –

回答

1

当然你可以使用HAP和Selenium一起使用。基本上,你可以浏览到使用硒驱动程序中的一个URL,然后加载HTML到HAP,类似如下:

IWebDriver driver = new FirefoxDriver(); 
driver.Navigate().GoToUrl(url); 
HtmlDocument doc = new HtmlDocument(); 
doc.LoadHtml(driver.PageSource); 

,一旦你做了解析当前页面,导航司机到下一个页面(找到下一页的链接并执行点击操作),并再次将HTML传递给HAP。无论如何,我认为大多数HAP功能可以被Selenium替代,因此您可能只想考虑使用Selenium。