2012-02-12 38 views
0

我试图scrapp页面源代码,但我发现在响应整个页面源代码不到来意味着一些div值虽然它出现在页面查看源中但未进入c#响应。在c#窗口应用程序中删除整页源代码

请指导我如何在c#windows应用程序中获取那些丢失的潜水值。

+1

页面的那些部分是由JavaScript生成的吗? – svick 2012-02-12 15:14:35

回答

0

您在响应中缺少的元素可能是使用JavaScript即时添加的元素。

假设您使用HttpWebRequest加载页面,那么在执行此类请求时,JavaScript将无法在您所刮取的URL上执行。

使用WinForms,你可以使用一个WebBrowser控件,它可以让你加载一个网页,然后在加载完成时,你可以得到页面的源代码。我相信会执行页面上的JavaScript。

+0

我想跟踪谷歌ig搜索结果中的“复制快捷方式”链接, 它出现在页面查看源中,但不是在C#响应中。 请指导我如何跟踪“复制快捷方式”链接的链接 – 2012-02-16 09:21:49

0

您可以使用下面的语法,其中panel-header是HTML的ClassName,用于标识我们的html部分。

var panelHeader = driver.FindElement(OpenQA.Selenium.By.ClassName("panel-header")).Text; 

如果你没有类名或要使用标识,那么你必须选择

By.Id(“破折号= 1234”) 这将获取从给定的类中的所有文本或ID。

相关问题