我一直在使用相同的技术之前刮网站。但有了这个网站,它似乎不起作用。问题与美丽的汤刮
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CONT=euro&LAND=UK&KEY=UK&SORT=1&INT=06&TYP=sonne&ART=tabelle&RUBRIK=akt&R=310&CEL=C"
page=urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
print soup
在输出应该是网页的内容,而是我刚刚得到这个:
的GIF89a(也它遵循一些符号,我不能在这里复制)
的任何想法问题是什么以及我应该如何继续。
@Ahhijit请注意,一旦他们发现你正在挖掘该网站,他们可能只是改变他们的HTML来打破你的欺骗。或者阻止你的IP地址。或者其他任何改变。他们不希望你刮他们的网站。也许你应该尊重这一点。 –
@Abhijit:响应= opener.open(URL)返回的错误: – John
回溯(最近通话最后一个): 文件 “”,1号线,在 文件 “C:\ Python27 \ LIB \ urllib2.py”第406行,打开 response = meth(req,response) 文件“C:\ Python27 \ lib \ urllib2.py”,第519行,http_response 'http',请求,响应,代码,msg,hdrs) 文件“C:\ Python27 \ lib \ urllib2.py”,第444行,出错 返回self._call_chain(* args) http_error_default中的文件“C:\ Python27 \ lib \ urllib2.py”,第527行 引发HTTPError(req.get_full_url(),code,msg,hdrs,fp) HTTPError:HTTP Error 4 03:禁止 –
John