我正在为我的学校做一个项目,我想在这个项目中比较骗局邮件。我发现这个网站:http://www.419scam.org/emails/ 现在我想要做的是将每个骗局保存在分开的文档中,然后我可以分析它们。 这里是我到目前为止的代码:编写一个通过页面上的链接遍历的python脚本
import BeautifulSoup, urllib2
address='http://www.419scam.org/emails/'
html = urllib2.urlopen(address).read()
f = open('test.txt', 'wb')
f.write(html)
f.close()
这节省了我的文本格式全HTML文件,现在我想剥离文件和HTML链接的内容保存到诈骗:
<a href="2011-12/01/index.htm">01</a>
<a href="2011-12/02/index.htm">02</a>
<a href="2011-12/03/index.htm">03</a>
等
如果我得到的是,我仍然需要再向前迈进一步,并打开保存另一个HREF。任何想法如何在一个Python代码中做到这一点?
谢谢!
谢谢@保罗! – 01000001
任何想法,如果我们可以递归到一个以上的水平? – SoulMan
@NeilGhosh你的意思是刮一个页面的链接,然后从所有这些链接刮取html? –