我有这个java字符串与xml信息,我想用java正则表达式来过滤掉所有的单词之间的垃圾,形成括号括起来的单词,例如, [被告]。如何使用java正则表达式来过滤xml文件
我想从这个去:
<w:p><w:r><w:t>[</w:t></w:r><st1:PlaceName w:st="on"><w:r><w:t>DEFENDANT</w:t></w:r>
</st1:PlaceName><w:r><w:t> </w:t></w:r><st1:PlaceType w:st="on"><w:r><w:t>CITY</w:t></w:r>
</st1:PlaceType><w:r><w:t>], [</w:t></w:r><st1:place w:st="on"><st1:PlaceName w:st="on"><w:r>
<w:t>DEFENDANT</w:t></w:r></st1:PlaceName><w:r><w:t> </w:t></w:r><st1:PlaceType w:st="on"><w:r>
<w:t>STATE</w:t></w:r></st1:PlaceType></st1:place><w:r><w:t>] [DEFENDANT ZIP]</w:r><w:r>
这样:
<w:p><w:r><w:t>[DEFENDANT CITY], [DEFENDANT STATE] [DEFENDANT ZIP]</w:r><w:r>
我一直与正则表达式epression像(\[)<.+>+([A-Z ]+\])
上regexPlanet全面测试无济于事。
使用正则表达式解析XML非常困难和笨拙。是否有一个特别的原因,您不想使用适当的XML解析,如DOM/SAX? – Adrian
看看[这个答案](http://stackoverflow.com/a/1732454/2170192),它也与XML +正则表达式有关;)使用SAX解析器! –
您能保证XML全部在文本单行上吗? –