2013-08-18 65 views
3

解析Groovy中的XML应该是一件小事,但我总是遇到问题。使用命名空间和实体解析Groovy中的XML

我想解析字符串是这样的:

<html> 
<p> 
This&nbsp;is a <span>test</span> with <b>some</b> formattings.<br /> 
And this has a <ac:special>special</ac:special> formatting. 
</p> 
</html> 

当我这样做的标准方式new XmlSlurper().parseText(body),解析器抱怨的&nbsp实体。我在这样的情况下,秘密武器就是使用tagsoup:

def parser = new org.ccil.cowan.tagsoup.Parser() 
def page = new XmlSlurper(parser).parseText(body) 

但现在<ac:sepcial>标签将由解析器立刻关闭 - 在special文本将不会在导致DOM在此标签内。甚至当我禁用命名空间功能:

def parser = new org.ccil.cowan.tagsoup.Parser() 
parser.setFeature(parser.namespacesFeature,false) 
def page = new XmlSlurper(parser).parseText(body) 

另一种方法是使用标准的解析器和添加的doctype像这样的:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 

这似乎为我的大部分文件的工作,但解析器获取dtd并处理它需要很长时间。

任何好主意如何解决这个问题?

PS:这里是一些示例代码一起玩:

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='0.9.7') 
def processNode(node) { 
    def out = new StringBuilder("") 
    node.children.each { 
     if (it instanceof String) { 
      out << it 
     } else { 
      out << "<${it.name()}>${processNode(it)}</${it.name()}>" 
     } 
    } 
    return out.toString() 
} 

def body = """<html> 
<p> 
This&nbsp;is a <span>test</span> with <b>some</b> formattings.<br /> 
And this has a <ac:special>special</ac:special> formatting. 
</p> 
</html>""" 

def parser = new org.ccil.cowan.tagsoup.Parser() 
parser.setFeature(parser.namespacesFeature,false) 
def page = new XmlSlurper(parser).parseText(body) 
def out = new StringBuilder("") 
page.childNodes().each { 
    out << processNode(it) 
} 
println out.toString() 
"" 

回答

2

你将不得不决定是否要解析符合标准的,要在DTD路径,或接受只是一个宽容的解析器什么。

Tagsoup以我的经验对后者很好,它很少产生任何问题,所以我很惊讶地看到你对它的处理“特殊”的评论。快速测试还显示,我无法重现:在你的样品运行此命令

java net.sf.saxon.Query -x:org.ccil.cowan.tagsoup.Parser -s:- -qs:. !encoding=ASCII !indent=yes 

的时候,我接到这个结果

<?xml version="1.0" encoding="ASCII"?> 
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:html="http://www.w3.org/1999/xhtml"> 
    <body> 
     <p> 
    This&#xa0;is a <span>test</span> with <b>some</b> formattings.<br clear="none"/> 
    And this has a <ac:special xmlns:ac="urn:x-prefix:ac">special</ac:special> formatting. 
    </p> 

    </body> 
</html> 

来自TagSoup 1.2和1.2.1。因此,对我来说,如预期那样,在“ac:special”标签内出现“特殊”文本。

至于DTD变体,您可以通过缓存代理来解析DTD,引用本地副本,甚至将DTD减少到您需要的最小值。以下应该足以让您穿过&nbsp;实体:

<!DOCTYPE DOC[<!ENTITY nbsp "&#160;">]> 
+0

太棒了!它是我使用的tagsoup解析器的版本(0.9.x)... 1.2.1适合我。感谢名单! – rdmueller