我现在处于以下情况。我试图将一个凌乱的HTML代码转换为一个漂亮而整齐的xml结构。用PHP刮掉凌乱的html网站
刮下网站的部分HTML代码:
<p><span class='one'>week number</span></p>
<p><span class='two'>day of the week</span></p>
<table class='spreadsheet'>
table data
</table>
<p><span class='two'>another day of the week</span></p>
<table class='spreadsheet'>
table data
</table>
<p><span class='one'>another week number</span></p>
ETC
现在我想用PHP创建以下XML结构:
<week number='week number'>
<day name='day of the week'>
<data id='table data'>table data</data>
</day>
<day name='another day of the week'>
<data id='table data'>table data</data>
</day>
</week>
<week number='another week number'>
ETC
</week>
一直试图简单的HTML DOM方法,但不知道如何获得下一个兄弟姐妹,并检查它是一周中的新的一天,新的表格数据还是新的一周等。
我当然也对其他解决方案开放。
谢谢。
干杯, Dandoen
[Scrape web page contents](http://stackoverflow.com/questions/584826/scrape-web-page-contents) – 2016-02-25 16:56:58