2013-10-14 24 views
-2

我想知道我怎么可以从网页如何查找和在C#中提取网页文本

例如获取数据:

<li id="hello1">about me 
    <ul class="square"> 
     <li><strong>name: john</strong></li> 
    </ul> 
</li> 

我要在名字前面阅读约翰:那么我是怎么着在C#阅读 哦,我曾尝试使用HTML Agility Pack :(但由于其较差的文档,我是不能够使用这样需要帮助。

+5

可以请你告诉我们,你已经尝试? –

+0

我的意思是我已经下载了HTML敏捷包,但是我没有在文档文件中找到任何示例,以便我了解它的用法 – user776046

回答

2

使用HtmlAgilityPack

HtmlDocument doc = new HtmlDocument(); 
doc.Load(yourStream); 
var nameElement= doc.DocumentNode.SelectSingleNode("//li[@id='hello1']").InnerText; 
//name would contain `about me name: john` 
Regex.Match(nameElement,@"(?<=name:\s*)\w+").Value;//john 
0

我已经使用HTML敏捷性包之前,它是伟大的工具

HtmlDocument document = new HtmlDocument(); 

document.LoadHtml(YourHTML); 
var collection = document.DocumentNode.SelectNodes("//li[@id='hello1']");