我需要一个给定的文件解析成字符串列表, 给定文件的风格是这样的:蟒蛇 - XML/HTML解析problam
<DOC>
<DOCNUM> NUMBER </DOCNUM>
<DOCTYPE> TYPE </DOCTYPE>
<HEADER>
&SOMETHING
</HEADER>
<BODY>
<HEADLINE>
SOME TEXT
</HEADLINE>
TEXT
TEXT
TEXT
<TEXT>
<P>
INPUT TEXT1
</P>
<P>
INPUT TEXT2
</P>
.
.
.
</TEXT>
</BODY>
</DOC>
我需要里面的所有的TEXTi实例的列表P标签外观。 我试图用lxml xml解析器来做这件事,但是因为&某些东西在xml格式中是不可接受的,所以它不起作用... 我尝试过使用html解析器,但是我没弄清楚如何使它工作。
没有人知道一个好的方法来获得我需要的清单吗?