我维护HTML格式文章的数据库。不幸的是谁写的文章编辑不知道正确的HTML,所以他们往往有书面的东西,如:如何用Perl解析无效的HTML?
<div class="highlight"><html><head></head><body><p>Note that ...</p></html></div>
我试着用HTML::TreeBuilder
解析这个HTML之间,但它的解析和倾倒结果树中的所有元素后<div class="highlight">...</div>
不见了。我只剩下<div class="highlight"></div>
。
的编辑往往也做的事情,如:
<div class="article"><style>@font-face { font-family: "Cambria"; }</style>Article starts here</div>
与HTML::TreeBuilder
导致空<div class="article"></div>
再次解析此。
任何想法如何处理这个破碎的HTML,并实际上有意义吗?
你试过把它看成是xml吗?它可能不是有效的html,但您可以使用xpath将其分开。 –
@BartonChittenden祝你好运。 –