我想解析一些标准的XML文档,它们使用来自各种来源的名为MARCXML的模式。如何正确解析具有任意名称空间的XML文档
下面是需要处理的一个示例XML文件的前几行...
<?xml version="1.0" encoding="UTF-8" standalone="no" ?>
<marc:collection xmlns:marc="http://www.loc.gov/MARC21/slim" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
<marc:record>
<marc:leader>00925njm 22002777a 4500</marc:leader>
,一个没有命名空间前缀...
<?xml version="1.0" encoding="UTF-8" standalone="no" ?>
<collection xmlns="http://www.loc.gov/MARC21/slim">
<record>
<leader>01142cam 2200301 a 4500</leader>
关键点:为了让XPath在程序中进一步解决,我必须通过一个正则表达式例程来将名称空间添加到NameTable(默认情况下不会添加它们)。这对我来说似乎没有必要。
Regex xmlNamespace = new Regex("xmlns:(?<PREFIX>[^=]+)=\"(?<URI>[^\"]+)\"", RegexOptions.Compiled);
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.LoadXml(xmlRecord);
XmlNamespaceManager nsMgr = new XmlNamespaceManager(xmlDoc.NameTable);
MatchCollection namespaces = xmlNamespace.Matches(xmlRecord);
foreach (Match n in namespaces)
{
nsMgr.AddNamespace(n.Groups["PREFIX"].ToString(), n.Groups["URI"].ToString());
}
中的XPath调用看起来是这样的......
XmlNode leaderNode = xmlDoc.SelectSingleNode(".//" + LeaderNode, nsMgr);
凡LeaderNode
是一个可配置的值,并会在第二个例子中等于第一个例子"marc:leader"
和"leader"
。
有没有更好,更有效的方法来做到这一点?注意:对于使用LINQ解决此问题的建议值得欢迎,但我主要想知道如何使用XmlDocument
解决此问题。
编辑:我把GrayWizardx的建议,现在有以下代码...
if (LeaderNode.Contains(":"))
{
string prefix = LeaderNode.Substring(0, LeaderNode.IndexOf(':'));
XmlNode root = xmlDoc.FirstChild;
string nameSpace = root.GetNamespaceOfPrefix(prefix);
nsMgr.AddNamespace(prefix, nameSpace);
}
现在有正则表达式上没有更多的依赖!
我面临几乎完全相同的问题。你如何完成你的'LeaderNode'魔法?你有预知你正在处理什么记录类型? – 2014-02-05 16:28:48