2015-09-20 133 views
2

我想从越南的网站中提取文本,该文件的字符集是utf-8。然而,我得到的文本总是在Ascii中,我无法找到一种方法将它们转换为unicode或获取网站上的文本。因此,我无法按预期将它们保存到文件中。
我知道这是在Python中unicode非常流行的问题,但我仍然希望有人能帮我弄明白。谢谢。
我的代码:
如何在Python中提取数据时获取unicode字符串?

import requests, re, io 
import simplejson as json 
from lxml import html, etree 

base = "http://www.amthuc365.vn/cong-thuc/" 
page = requests.get(base + "trang-" + str(1) + ".html") 
pageTree = html.fromstring(page.text) 

links = pageTree.xpath('//ul[contains(@class, "mt30")]/li/a/@href') 
names = pageTree.xpath('//h3[@class="title"]/a/text()') 
for name in names[:1]: 
    print name 
    # Làm bánh oreo nhân bÆ¡ Äậu phá»ng thÆ¡m bùi 

,但我需要的是“林迪班奥利奥仁博đậu海防THOM BUI”
感谢。

回答

相关问题