2016-07-26 81 views
1

我有相当复杂的XML这样的工作的工作:LXML与命名空间

<?xml version="1.0" encoding="UTF-8"?> 
<!-- ***** Configuration Data exported at 20160623T110335 ***** --> 
<impex:ExportData xmlns:impex="urn:swift:saa:xsd:impex"> 

<!-- *** Exported Data for Operator *** --> 
<OperatorData xmlns="urn:swift:saa:xsd:impex:operator"> 

<ns2:OperatorDefinition xmlns="urn:swift:saa:xsd:operatorprofile" xmlns:ns2="urn:swift:saa:xsd:impex:operator" xmlns:ns3="urn:swift:saa:xsd:unit" xmlns:ns4="urn:swift:saa:xsd:licenseddestination" xmlns:ns5="urn:swift:saa:xsd:operator" xmlns:ns6="urn:swift:saa:xsd:authenticationservergroup"> 
    <ns2:Operator> 
     <ns5:Identifier> 
      <ns5:Name>jdoe</ns5:Name> 
     </ns5:Identifier> 
     <ns5:Description>John Doe</ns5:Description> 
     <ns5:OperatorType>HUMAN</ns5:OperatorType> 
     <ns5:AuthenticationType>LDAP</ns5:AuthenticationType> 
     <ns5:AuthenticationServerGroup> 
      <ns6:Type>LDAP</ns6:Type> 
      <ns6:Name>LDAP_GROUP1</ns6:Name> 
     </ns5:AuthenticationServerGroup> 
     <ns5:LdapUserId>jdoe</ns5:LdapUserId> 
     <ns5:Profile> 
      <Name>DEV Users</Name> 
     </ns5:Profile> 
     <ns5:Unit> 
      <ns3:Name>None</ns3:Name> 
     </ns5:Unit> 
    </ns2:Operator> 
</ns2:OperatorDefinition> 

</OperatorData> 

</impex:ExportData> 

在这个XML有许多<ns2:OperatorDefinition>元素像我包括在内。我很难理解如何使用lxml提取类似<ns5:Description>的东西。所有我找到的命名空间的例子都不是这个复杂的。

我想只需找到做这样的事情的标签 -

from lxml import etree 
doc = etree.parse('c:/robin/Operators_out.xml') 

r = doc.xpath('/x:OperatorData/ns2:OperatorDefinition', namespaces={'x': 'urn:swift:saa:xsd:impex:operator'}) 
print len(r) 
print r[0].text 
print r[0].tag 

我得到Undefined namespace prefix

+1

由于您尚未在'namespaces'字典中包含'ns2'前缀的定义,因此您会得到“未定义的命名空间前缀”。 – mzjn

回答

1

您可能不需要为您的使用情况,remove them命名空间,使分析更容易:

from lxml import etree, objectify 

tree = etree.parse("input.xml") 
root = tree.getroot() 

# remove namespaces ---- 
for elem in root.getiterator(): 
    if not hasattr(elem.tag, 'find'): continue 
    i = elem.tag.find('}') 
    if i >= 0: 
     elem.tag = elem.tag[i+1:] 

objectify.deannotate(root, cleanup_namespaces=True) 
# ---- 

name = root.findtext(".//OperatorDefinition/Operator/Identifier/Name") 
print(name) 

打印jdoe

+0

这适用于单一用户我试图找出如何循环它,如果有多个'OperatorDefinitions'与他们在相同的标签?即。我想返回'jdoe','asmith'等。 – whoisearth

+0

@whoisearth没问题,在'.//运算符定义/运算符/标识符/名称/文本()'。 – alecxe

+0

@alecse我最终这样做,它的工作原理 - '对于elem in tree.iterfind('.// OperatorDefinition'): print elem.findtext(“.// Operator/Identifier/Name”)' – whoisearth