使用HtmlAgilityPack刮网页分页

-1

我正在使用html敏捷包创建网页刮板，我有一个关于分页的问题。我通过网络搜索找到一些东西来帮助我转发，但我不在附近。我需要刮掉所有分页页面的内容。是否有任何机制来做到这一点使用htmlagility或任何帮助表示赞赏。我还发现了其他应用程序，如硒和调查它。有没有一种方法可以利用硒以及可擦性以及刮擦？任何形式的帮助将不胜感激。谢谢使用HtmlAgilityPack刮网页分页

来源

2016-04-29 shunilkarki

您当然可以使用HtmlAgility页面来获取页面上的所有链接，包括分页链接，但是您的问题太宽泛而无法回答。你有什么尝试？这里有一个使用HtmlAgility包来抓取网站的例子：http://blog.abodit.com/2010/03/a-simple-web-crawler-in-c-using-htmlagilitypack/ –

谢谢伊恩，我已经利用HAP刮网站，但我没有意识到与分页的东西。所以只是想得到新鲜的想法 – shunilkarki

分页通常是作为一串链接（1 2 3 ... n）实现的，有时候会随着探索而发展（... 4 5 6 ...）或者你的意思是别的？ –

当然你可以使用HAP和Selenium一起使用。基本上，你可以浏览到使用硒驱动程序中的一个URL，然后加载HTML到HAP，类似如下：

IWebDriver driver = new FirefoxDriver(); 
driver.Navigate().GoToUrl(url); 
HtmlDocument doc = new HtmlDocument(); 
doc.LoadHtml(driver.PageSource);

，一旦你做了解析当前页面，导航司机到下一个页面（找到下一页的链接并执行点击操作），并再次将HTML传递给HAP。无论如何，我认为大多数HAP功能可以被Selenium替代，因此您可能只想考虑使用Selenium。

来源

2016-04-29 03:30:11 har07

使用HtmlAgilityPack刮网页分页

回答

相关问题