我在Python中使用urllib和urllib2来打开和阅读网页,但有时,我得到的文本是不可读的。例如,如果我运行此:为什么从页面检索的文本有时看起来像是乱码?
import urllib
text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text
我得到一些不可读的文本。我看过这些帖子:
Does python urllib2 automatically uncompress gzip data fetched from webpage?
,但似乎无法找到我的答案。
非常感谢您的帮助!
UPDATE:我通过固定“可信”服务器的问题,我的用户代理是一个布劳尔而不是爬行。
import urllib
class NewOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'
nop = NewOpener()
html_text = nop.open('http://tagger.steve.museum/steve/object/141913').read()
谢谢大家的回复。
urlopen(youUrl)的结果是Javascript。这个脚本真的是你想要得到的内容,还是想获得网页的实际内容(显示浏览器的内容)? –