0

我试图提取图像和一些文本关闭以下站点http://bit.ly/16jFeyA提取完整的HTML源代码,不偏

Web窗体,C#,Visual Studio中,HtmlAgilityPack

编码与Web客户端只,浏览器wb.Document.Encoding = "GB2312";效果很好不起作用,不重要。

该网站使用惰性负载,图像。 WebBrowser正常加载,与图像的信息,但是当我提取使用任何Web客户端/ wb.DocumentText,它不会下载“全部信息”一些信息丢失,特别是图像链接等。

反正有这个?我正在尝试提取图像和产品信息。

使用wb.DocumentText提取向下滚动以迫使图像加载(由于延迟加载)后 - http://notepad.cc/share/EjW3tFCffO

WB = web浏览器

提前感谢!

回答

2

您需要使用一些知道如何评估和执行客户端JavaScript的东西,例如无头浏览器。 PhantomJS应该就够了。

+0

谢谢,将研究,目前找到一个解决方案,是开发扩展获取我需要的数据和保存图像。 – CodeGuru 2013-03-11 02:55:10