我的想法是探索Groupon的网站来提取交易的网址。问题是,我试图做Groupon的页面上的findall找到DATAS是这样的:(此页:http://www.groupon.de/alle-deals/muenchen/restaurant-296)Python正则表达式从网页抓取数据
"category":"RESTAURANT1","dealPermaLink":"/deals/muenchen-special/Casa-Lavecchia/24788330", and I'd like to get the 'deals/muenchen-special/Casa-Lavecchia/24788330'.
我想了整整一夜,但我无法找到一个正确的正则表达式。我试过了:
import urllib2
import re
Page_Web = urllib2.urlopen('http://www.groupon.de/alle-deals/muenchen/restaurant-296').read()
for m in re.findall('category*RESATAURANT1*dealPermaLink*:?/*/*/*/*\d$',Page_Web):
print m
但它不打印任何东西。
如果你有时间看看它们,BeautifulSoup和Requests库可以在Python中进行刮取很容易。 –
为什么不只是注册[groupon api](http://www.groupon.com/pages/api)并以安全,方便和合法*的方式使用它来实现您的目标? – J0HN