2010-08-13 36 views
1

我试图让XPath来返回属性值标记的内容,也就是说,如果我有的XPath Perl中得到属性值

<select name="xxx"> 
    <option=bla>123</option> 
    <option=blubb>456</option> 
</select> 

我想说的是,“搜索选项标签还第一次搜索含456一定选择标签中名称为 “XXX”

我这样做:

my $xp = XML::XPathEngine->new(); 
my $tree = HTML::TreeBuilder::XPath->new_from_content($mech->content); 
my $search = $xp->find('//select[@name="xxx"]/option[.=~ /' . $re . '/]/@value', $tree); 

($重是选项部分的正则表达式。)

所有返回的最后一行($ XP的>找到)是

Can't locate object method "getRootNode" via package "HTML::TreeBuilder::XPath::Attribute" at /usr/lib/perl5/site_perl/5.8.8/XML/XPathEngine/NodeSet.pm line 90, <MYFILE> line 1. 

有什么不对吗?那个模块有问题吗?我的XPath有问题吗?我应该使用其他“正常工作”的东西吗?

PS。我不使用XML解析器::因为它抱怨一个完全有效的页面

mismatched tag at line 9, column 3, byte 427 at /usr/lib/perl5/vendor_perl/5.8.8/i586-linux-thread-multi/XML/Parser.pm line 187 


<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> 
<html> 
<head> 
    <title>aaaa</title> 
<link href="/x/include/main.css" type="text/css" rel="stylesheet"> 
<link href="/x/images/favicon.ico" rel="shortcut icon"> 
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"> 
<script type="text/javascript" src="/x/include/layout.js"></script> 
</head> 

<body style= 
..... 
+0

你完全有效的HTML不是一个格式良好的XML:看起来'link'和'meta'元素不是空的。还有一个真正的XPath 1.0会选择[@ name ='xxx']/option [。='456']',没有'=〜'比较运算符。最后,你的输入样本甚至没有有效的HTML ... – 2010-08-13 21:18:16

回答

2

嗯,你的榜样HTML没有任何价值属性,你不给一个完整的示例脚本。但是,下面的脚本能正常工作对我来说:

use XML::XPathEngine; 
use HTML::TreeBuilder::XPath; 

my $content = <<''; 
<select name="xxx"> 
    <option value=bla>123</option> 
    <option value=blubb>456</option> 
</select> 

my $re = '456'; 

my $xp = XML::XPathEngine->new(); 
my $tree = HTML::TreeBuilder::XPath->new_from_content($content); 
my $search = $xp->find('//select[@name="xxx"]/option[.=~ /' . $re . '/]/@value', $tree); 

print "$search\n"; 

在猜测,你已经把在$re东西不起作用。

我使用:

  • HTML :: TreeBuilder作为3.23
  • HTML :: TreeBuilder作为:: XPath的0.08
  • XML :: XPathEngine 0.08

原因XML ::解析器不起作用的是HTML不是XML。

+0

是的,你的例子的作品。我不知道我为什么不这样做。好的选项标签在我的例子中混乱了,但我的原始文件包含值属性。 我现在已经完全切换到这个部分的RE,因为我需要解析的HTML无论如何都没有验证。 感谢您的帮助。 – Marki 2010-08-13 13:31:25