2015-02-06 101 views
0

文本的一部分,我很新的蟒蛇因此陷入了这个问题:如何删除蟒蛇

有像

blahh 
blah 
blah 
... 
<start> 
some stuff 
</start> 
even more blah blah blah 

我想删除所有的嗒嗒txt文件零件在<start>之前和</start>之后。 (主要是来自这个link。我想用bs4制作页面中的html文件,所以我认为我必须先删除所有的非html部分。

有人可以告诉我什么是最好的办法做到这一点感谢任何帮助

+1

@AJ:请不要建议使用正则表达式解析HTML。请阅读http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags(和l给一个标签上墨只是没用。) – geoffspear 2015-02-06 17:10:52

回答

1

不,你并不需要删除的文件的非相关部分让BeautifulSoup解析完整的文件是,找到你所需要的标签:?!

from urllib2 import urlopen 
from bs4 import BeautifulSoup 

url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt' 
soup = BeautifulSoup(urlopen(url)) 
print(soup.document) 
+0

非常感谢,alecxe。这真的帮助我! – 2015-02-06 18:54:30