pQuery是Perl的jQuery JavaScript框架的实用端口,可用于屏幕抓取。如何使pQuery能够使用稍微格式错误的HTML?
pQuery对格式错误的HTML非常敏感。请看下面的例子:
use pQuery;
my $html_malformed = "<html><head><title>foo</title></head><body>bar</body></html>>";
my $page = pQuery($html_malformed);
my $title = $page->find("title");
print "The title is: ", $title->html, "\n";
pQuery不会找到在上面的例子中,标题标签由于畸形的HTML双“>>
”。
为了使我的基于pQuery的应用程序更容忍格式错误的HTML,我需要在将它传递给pQuery之前清理它,以预处理HTML。
从上面给出的代码片段开始,什么是最强大的纯perl方法来清理HTML以使其解析:通过pQuery可以吗?
对不起,但我需要一个纯粹的perl解决方案。现在在这个问题上已经澄清了。无论如何感谢您的答案! :-) – knorv 2010-10-09 15:53:17