2011-03-03 23 views
0

我得到这个作为一个字符串我prepareXml方法解析一个作为字符串注入的htmlpage? (字符串到XML)

<TBODY> 
<TR> 
<TD colSpan=4>Detail of your Trip</TD></TR> 
<TR></TR> 
<TR> 
<TD colSpan=4>Booking Ref. : XXX</TD></TR> 
<TR></TR> 
<TR> 
<TD>Client</TD> 
<TD colSpan=2>Ticket Number</TD> 
<TD>FOID</TD></TR> 
<TR> 
<TD>Person (ADT)</TD> 
<TD colSpan=2>000000</TD> 
<TD>XXXX</TD></TR> 
<TR></TR> 
    <TR> 
<TD>From: Location 1</TD> 
<TD>To : Location 2</TD> 
<TD colSpan=2>Flight : LLL</TD></TR> 
<TR> 
<TD colSpan=2></TD> 
<TD colSpan=2>Departure : 14Aug, 15:55 Latest check-in time limit : 15:25 </TD></TR> 
<TR> 
<TD colSpan=2></TD> 
<TD colSpan=2>Arrival : 17:25</TD></TR> 
<TR> 
<TD colSpan=2></TD> 
<TD colSpan=2>Class N</TD></TR> 
<TR> 
<TD>From : Location 2</TD> 
<TD>To :Location1</TD> 
<TD colSpan=2>Flight : AF2585 Resa : OK</TD></TR> 
<TR> 
<TD colSpan=2></TD> 
<TD colSpan=2>Departure : "Time" Latest check-in time limit : "Time" </TD></TR> 
<TR> 
<TD colSpan=2></TD> 
<TR> 
<TD colSpan=2></TD> 

N类

我有这个作为一个字符串,我应该分析它,并把它作为一个XML

我想获得航班号机票号码和出发地点,到达地点..并且还检查它是单向还是双向..

我该怎么做..因为它真的很大是什么解析这个最好的方法是什么?

帮助赞赏。

回答

1

您可以使用例如NekoHTML来解析HTML。 Neko是一个开源的解析器/标签平衡器,它允许您使用常规的XML操作来遍历和提取​​文档中的信息。例如,

String html = ... 
DOMParser parser = new DOMParser(); 
parser.parse(new InputSource(new ByteArrayInputStream(html.getBytes()))); 
Document = parser.getDocument(); // standard org.w3c.dom.Document 

在这个阶段,你可以它挂到一个XPATH解析器如Jaxen更conveniantly提取所需的信息。