如何从文档中获取西里尔字符串?如何从文档中获取西里尔字符串
我有休耕代码:
import urllib
from BeautifulSoup import BeautifulSoup
page = urllib.urlopen("http://habrahabr.ru/")
soup = BeautifulSoup(page.read())
for topic in soup.findAll(True, 'topic'):
print topic
print
raw_input()
有网站,但蟒蛇显示错误的字符上西里尔字。
对于这个问题的任何帮助,我都会很有帮助。
PS。
我改变
soup = BeautifulSoup(page.read())
到
soup = BeautifulSoup(page.read(), fromEncoding="utf-8")
,仍然没有结果...
抓住这个功能,但我什么,我需要在我的例子中做?我试图转换 'page.read()。decode('utf8')' 但没有结果... – Mirgorod 2011-02-24 23:04:49
嗯,这很奇怪,但只有一个这些是正常显示...其他项目是错误的字符。 .. – Mirgorod 2011-02-24 23:07:34