我想解析一个特定的HTML字符串,以便我可以提取一组由<br/>
分隔线分解的行。输入HTML看起来像这样:使用HTML解析HTML使用HTML AgilityPack
<div class="PlainText">
DATE: 2013-10-28 20:00:43 -0500 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
<br/> //Notice this has two break lines, i would like to stop after seeing two consecutive break lines.
</div>
有了这个div较大的HTML文档中,我能得到HTML ChildNodes
List<HtmlNode> nodes = htmlDoc.DocumentNode
.Descendants("div")
.Where(x => x.Attributes.Contains("class") &&
x.Attributes["class"].Value.Contains("PlainText")).ToList();
我不完全知道从哪里何去何从,我会喜欢阅读所有的文字,直到我看到两条断线并停止?
编辑
我看着在Visual Studio中运行时检查的的childNodes nodes
,发现里面居然是不是两个consectuive <br/>
线,但单断线和#text
标签与它的innerHTML是\n
新行字符。
真的吗?我看到两个br标签,使用您发布的同一个示例 – devshorts
输入的HTML有两个br标签,但从屏幕截图中可以看出,以及在调试节点''返回时检查的内容时,有'#text'标签在它们之间有一个只读取换行符的InnerHtml。 – Warz
你关心换行吗?你的问题只说br标签。如果换行符是一个问题,你可以使用一个字符串修剪它 – devshorts