删除了过多的元素之间的多个XML元素

我有一些XML看起来像下面这样：删除了过多的元素之间的多个XML元素

<FirstLevel> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
</FirstLevel>

使用Python，我想删除item1和item5之间的所有项目，而不必明确的名字，得到结果如下：

<FirstLevel> 
    <item1>Val1</item1> 
    <item5>Val5</item5> 
</FirstLevel>

随着lxml，我知道如何找到item1和item5，所以我只需要知道如何建立某种形式的XML元素的列表它们是T之间这两个。

来源

2015-11-30 filaton

在Python中，读取文件通常要容易得多，删除所需的部分然后重写文件。它可能与您使用的模块idk不同。 –

感谢您的快速回答。在我的情况下，访问该文件很困难，因为它在更大的用例中存在，但是如果我找不到其他解决方案，我会考虑它:) – filaton

感谢alecxe，我找到了解决方案。如果我们有多个item1-item5元素的实例（请参阅我对他的答案的评论以便更好地理解），他的回答对于所描述的案例完全适用，但不起作用（即使是他的更新）。

无论如何，我发现了另一种解决方案（我认为这是更简单，更符合Python）：

from lxml.etree import fromstring, tostring 

data = """<FirstLevel> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
</FirstLevel> 
""" 

tree = fromstring(data) 

item1_list = tree.findall("item1") 

for item1 in item1_list: 
    next_node = item1.getnext() 
    while next_node.tag != "item5": 
     tree.remove(next_node) 
     next_node = item1.getnext() 

print(tostring(tree))

还有一个从alecxe评论这对我的作品来了一个解决方案：

从lxml.etree import fromstring，tostring

data = """<FirstLevel> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
</FirstLevel> 
""" 

tree = fromstring(data) 
node_start = "item1" 
node_end = "item5" 

parent = tree.xpath("//FirstLevel")[0] 
# Remove first section 
for node in parent.xpath("*[(preceding-sibling::item1)[1] and (following-sibling::item5)[3]]"): 
    parent.remove(node) 
# Remove second section 
for node in parent.xpath("*[(preceding-sibling::item1)[2] and (following-sibling::item5)[2]]"): 
    parent.remove(node) 
# Remove last section 
for node in parent.xpath("*[(preceding-sibling::item1)[3] and (following-sibling::item5)[last()]]"): 
    parent.remove(node) 

print(tostring(tree))

我找到了正确的索引来把我n preceding-和following-sibling通过尝试多个值，但仍然没有真正得到它的逻辑，但它至少对我有效。

来源

2015-12-01 09:48:45 filaton

您可以使用preceding-sibling和following-sibling，例如组合：

from lxml.etree import fromstring, tostring 

data = """<FirstLevel> 
    <item1>Val1</item1> 
    <item2>Val2</item2> 
    <item3>Val3</item3> 
    <item4>Val4</item4> 
    <item5>Val5</item5> 
</FirstLevel> 
""" 

tree = fromstring(data) 
node_start = "item1" 
node_end = "item5" 

parent = tree.xpath("//FirstLevel")[0] 
for node in parent.xpath("*[preceding-sibling::%s and following-sibling::%s]" % (node_start, node_end)): 
    parent.remove(node) 

print(tostring(tree))

打印：

<FirstLevel> 
    <item1>Val1</item1> 
    <item5>Val5</item5> 
</FirstLevel>

如果能有item1和item5单节点内多次出现：

item_start = "item1" 
item_end = "item5" 

parent = tree.xpath("//FirstLevel")[0] 
for node_start in parent.xpath("%s" % item_start): 
    for node in node_start.xpath("following-sibling::%s" % item_end): 
     parent.remove(node)

来源

2015-11-30 14:20:54 alecxe

非常感谢您的答案，描述。但是，如果我们考虑重复两次我们的“itemN”元素（使item1到item5再到item1再次到item5）的情况，它将删除第一个item1和最后一个item5之间的所有元素。我怎么能再次获取item1，item5，item1和item5。我希望这是明确:) – filaton

@filaton我想我明白你的意思。请参阅更新。谢谢。 – alecxe

删除了过多的元素之间的多个XML元素

回答

相关问题