2012-12-11 59 views
1

我有这样一个页面的HTML结构里面,XPath来获取文本形式

<form align="center" method="post" name="form1"> 
<input type="hidden" value="J0512-0491" name="jobid"> 
<input type="hidden" value="1" name="BDID"> 

<br> 
<hr> 
<b>Category: </b> 
Food & Beverage 
<br> 
<b>City: </b> 
Carlyle, Saskatchewan, Canada 
<br> 
<b>Job Number: </b> 
05012-04191 
<br> 
<b>Salary Range: </b> 
$13.19 - 16.48 
<br> 
<b>Closing Date: </b> 
31/03/2013 
<br> 
<hr> 
<b></b> 

我需要提取的文本“城”即“Carlyne,加拿大萨斯喀彻温省”使用XPath 。 关于如何实现这个的任何想法?

+1

这是一个无效的XML!它有没有编码的字符,例如'&',标签没有关闭..这看起来像一个HTML,但你应该关闭标签.. –

+0

嗯,我已经包括了HTML的一部分不包括所有页面的HTML :) –

+0

好吧!让我问你,你要在哪里使用XPATH?在XSLT中?或C#(XML DOM)?像在哪里? –

回答

1

使用这个XPath:

//*[contains(text(),'City')]/following-sibling::text()[1] 
+0

它是选择所有的兄弟姐妹
标签的文字,需要什么如果我想排除剩余的文本字段,可以完成吗? –

+1

它工作吗? '/ * [包含(text(),'City')]/following-sibling :: text()[1]' –

+0

yes @ Charles-EdouardCoste它的工作原理!你可以把它放在答案中,以便我可以接受它 –