Python网络爬虫

-3

是否有任何蟒蛇爬虫从网页拉出所有数据为例：http://www.bestbuy.com/site/HTC+-+One+S+4G+Mobile+Phone+-+Gradient+Blue+%28T-Mobile%29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= 在这个页面中，客户评论有两个页面1和2。我想抓取他的网址，并获得两个页面。这可能与一个python爬虫。Python网络爬虫

也做蟒蛇履带支持所有现代GET/POST技术

来源

2012-07-26 Rajeev

相反，你可以看到，如果百思买有API可以为你工作。 – 2014-05-06 21:40:55

你可以使用Scrapy：

Scrapy是一个快速的高层次的屏幕抓取和Web爬行框架，用来抓取网站和从他们的页面提取结构化数据。它可用于广泛的用途，从数据挖掘到监视和自动化测试。

来源

2012-07-26 13:32:00

如果您要抓取网站，请参阅this post。如果你只是想处理一些网页，并分析其内容（这意味着你知道你要处理的URL），尝试BeautifulSoup，它可以让你做这样的事情：

page = urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 
for f in soup.findAll('form'): 
    target_url = f['action'] 
    #do something with each one of the forms

来源

2012-07-26 14:47:48 gutes

Python网络爬虫

回答

相关问题