我有一个XML文件,我正在从网上解析。 XML中的项目之一是具有HTML的“内容”值。我使用XML::Simple::XMLin解析像这样的文件:当我使用Data::Dumper
转储哈希Perl的XML :: Simple如何忽略嵌入在XML中的HTML?
$xml= eval { $data->XMLin($xmldata, forcearray => 1, suppressempty=> +'') };
,我发现SimpleXML
是解析HTML到哈希树:
'content' => { 'div' => [ { 'xmlns' => 'http://www.w3.org/1999/xhtml', 'p' => [ { 'a' => [ { 'href' => 'http://miamiherald.typepad.com/.a/6a00d83451b26169e20133ec6f4491970b-pi', 'style' => 'FLOAT: left', 'img' => [ etc.....
这不是我想要的是。我想只抓住这个条目中的内容。我该怎么做呢?
原始XML的外观如何? “CDATA”部分是HTML吗? – friedo 2010-04-14 20:26:37
为什么正在使用'XML :: Simple'? – 2010-04-15 00:36:51
@Sinan - 是否XML :: LibXML或XML :: Parser包含一些奇特的钩子,允许手动处理内容为CDATA? – DVK 2010-04-15 05:38:39