2013-08-23 22 views
0

我正在研究C#应用程序。从网页上抓取源代码的最佳方式是什么?从网页上刮取源代码的最佳方法?

现在,我只是在浏览器(Chrome)中查看页面源代码,将&粘贴到文本文件中,然后将其吸收到解析器中。

我想我会先在我的应用程序中创建一个可以粘贴URL的文本框。然后应用程序将拉动该页面的源代码,然后将其传递到我的解析器中。

+0

你问的问题太宽泛;你打算如何处理页面源代码?保存?对它做转型吗?如果您可以更深入地了解您的用例,Stack Overflow将能够更好地为您提供精确的帮助。 –

回答

2

我会考虑HtmlAgilityPack。您可以轻松地下载一个页面是这样的:

HtmlDocument document = new HtmlDocument(); 
document.LoadHtml(new WebClient().DownloadString("http://www.bing.com")); 

如果你正在寻找一个良好的分析器,以ScrapySharp还有,我有很好的经验,这增加了扩展方法HtmlAgilityPack的的HTMLDocument轻松地选择页面上的元素使用CssSelectors像你在jQuery中发现,像这样:

document.DocumentNode.CssSelect(".sessions .main-head-row td.download a.text-pdf") 
0

你会用WebClient拨打电话的网页并获取字符串值。

之后,你可以做一个简单的string.IndexOf搜索标签来忽略标签的内容。

希望这可以帮助你:)