2012-07-26 235 views
-3

是否有任何蟒蛇爬虫从网页拉出所有数据为例:http://www.bestbuy.com/site/HTC+-+One+S+4G+Mobile+Phone+-+Gradient+Blue+%28T-Mobile%29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= 在这个页面中,客户评论有两个页面1和2。我想抓取他的网址,并获得两个页面。这可能与一个python爬虫。Python网络爬虫

也做蟒蛇履带支持所有现代GET/POST技术

+1

相反,你可以看到,如果百思买有API可以为你工作。 – 2014-05-06 21:40:55

回答

12

你可以使用Scrapy

Scrapy是一个快速的高层次的屏幕抓取和Web爬行框架,用来抓取网站和从他们的页面提取结构化数据。它可用于广泛的用途,从数据挖掘到监视和自动化测试。

3

如果您要抓取网站,请参阅this post。如果你只是想处理一些网页,并分析其内容(这意味着你知道你要处理的URL),尝试BeautifulSoup,它可以让你做这样的事情:

page = urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 
for f in soup.findAll('form'): 
    target_url = f['action'] 
    #do something with each one of the forms