2010-04-03 62 views
0

,以汽提出从HTML代码中的某些数据我有以下HTML代码段使用正则表达式通过PHP

<tr> 
<td class="1">...</td> 
<td class="2">...</td> 
<td class="3">...</td> 
<td class="4">...</td> 
</tr> 
etc... 

我基本上有N行,每行包含4 TD的每一个独特的类。 我想要一个简单的方法来分割所有的行和TD的类,所以我可以选择我想要使用的数据。

我期望最简单的方法来实现这将是正则表达式(也许两个)。一个分裂的TR的再另一个分裂的阵(由类优选)

由于

回答

1

正则表达式通常不是一种解析HTML的好方法,我会推荐使用SimpleXML http://www.php.net/manual/en/book.simplexml.php并对数据运行XPath查询。

+0

使用SimpleXML会给我带来由于格式错误的HTML和内联javascript而导致的大量错误。如何解决这个问题? – Chris 2010-04-03 18:39:02

+0

嗯,我不知道一个很好的PHP库,很好地处理错误,在python我会期待美丽的汤或lxml。当我遇到这个时,我有(没有自豪感)使用正则表达式。 Mike B建议的SimpleHTMLDom库声称处理无效的html,也许这值得一看? – Michael 2010-04-03 19:11:45