如何删除蟒蛇

文本的一部分，我很新的蟒蛇因此陷入了这个问题：如何删除蟒蛇

有像

blahh 
blah 
blah 
... 
<start> 
some stuff 
</start> 
even more blah blah blah

我想删除所有的嗒嗒txt文件零件在<start>之前和</start>之后。（主要是来自这个link。我想用bs4制作页面中的html文件，所以我认为我必须先删除所有的非html部分。

有人可以告诉我什么是最好的办法做到这一点感谢任何帮助

来源

2015-02-06 novice_007

@AJ：请不要建议使用正则表达式解析HTML。请阅读http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags（和l给一个标签上墨只是没用。） – geoffspear 2015-02-06 17:10:52

不，你并不需要删除的文件的非相关部分让BeautifulSoup解析完整的文件是，找到你所需要的标签：？！

from urllib2 import urlopen 
from bs4 import BeautifulSoup 

url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt' 
soup = BeautifulSoup(urlopen(url)) 
print(soup.document)

来源

2015-02-06 17:09:48 alecxe

非常感谢，alecxe。这真的帮助我！ – 2015-02-06 18:54:30

如何删除蟒蛇

回答

相关问题