我想使用python从this petition中删除所有〜62000个名字。我正在尝试使用beautifulsoup4库。在python中抓取网页
但是,它只是不工作。
这里是我到目前为止的代码:
import urllib2, re
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.thepetitionsite.com/104/781/496/ban-pesticides-used-to-kill-tigers/index.html').read())
divs = soup.findAll('div', attrs={'class' : 'name_location'})
print divs
[]
我在做什么错?另外,我想以某种方式访问下一个页面,将下一组名称添加到列表中,但我现在不知道该怎么做。任何帮助表示赞赏,谢谢。
'list'包含什么?另外,请不要使用变量名'list',因为它会遮盖相同名称的python内建函数,所以scrapy会使每个页面变得微不足道,但涉及使用/学习scrapy框架 – dm03514
只需注意:1)不会看起来网站的AUP允许这样做,并且2)即使你确实在下一页,下一页,下一页等等做了简单的循环,你可能最终会被阻止,因为你将要制作一个地狱的很多请求...为什么不只是通过电子邮件发送并询问您希望的信息是否可能? –
它不包含任何内容。然后我会更新一下。我现在会尝试给他们发邮件,但我仍然想尝试这个问题。 – cevn