从网页上刮取源代码的最佳方法？

我正在研究C＃应用程序。从网页上抓取源代码的最佳方式是什么？从网页上刮取源代码的最佳方法？

现在，我只是在浏览器（Chrome）中查看页面源代码，将&粘贴到文本文件中，然后将其吸收到解析器中。

我想我会先在我的应用程序中创建一个可以粘贴URL的文本框。然后应用程序将拉动该页面的源代码，然后将其传递到我的解析器中。

2013-08-23 sion_corn

你问的问题太宽泛;你打算如何处理页面源代码？保存？对它做转型吗？如果您可以更深入地了解您的用例，Stack Overflow将能够更好地为您提供精确的帮助。 –

我会考虑HtmlAgilityPack。您可以轻松地下载一个页面是这样的：

HtmlDocument document = new HtmlDocument(); 
document.LoadHtml(new WebClient().DownloadString("http://www.bing.com"));

如果你正在寻找一个良好的分析器，以ScrapySharp还有，我有很好的经验，这增加了扩展方法HtmlAgilityPack的的HTMLDocument轻松地选择页面上的元素使用CssSelectors像你在jQuery中发现，像这样：

document.DocumentNode.CssSelect(".sessions .main-head-row td.download a.text-pdf")

2013-08-23 16:32:59

你会用WebClient拨打电话的网页并获取字符串值。

之后，你可以做一个简单的string.IndexOf搜索标签来忽略标签的内容。

希望这可以帮助你:)

2013-08-23 16:36:03 Tushar

回答