2013-07-17 38 views
3

我使用lxml.html解析html文件并从页面获取文本。柏迪现在我其中有一个角色'例如Florian's由于该字符串,而打印输出我得到回溯TypeError:解码Unicode不支持python

parent_link_id_text = parent_link_id.xpath('./td[@width="400"]/text()') 
print (SGS_Mid[0]+";"+"External"+";"+str(link_id_num[0])+";"+parent_link_id_text[0]+";"+parent_link_link[0], file = log_file_1) 

UnicodeEncodeError:“ASCII”编解码器在56-58位置不能编码字符:在范围序数不(128)

然后我试图此

print (SGS_Mid[0]+";"+"PublicFreeUrl"+";"+str(link_id_num[0])+";"+unicode(parent_link_id_text[0],"utf-8")+";"+parent_link_link[0], file = log_file_1) 

和我得到一个回溯:

类型错误:解码Unicode的不支持

我如何可以通过打印用的unicode cahracter字符串解决这个问题?

+0

可以any1建议一个解决方案,以便下列查询! –

回答

1

不知道这是否是解决您的问题的方法,但也许它会引导您朝着正确的方向发展。

如果没有看到代码,您必须真正获取数据,我会推测并编写一个程序化的猜测来解决您的问题。

请参见下面的代码:

import lxml.html as lh 
import urllib2 

url = 'http://loremipsum.net/about.html' 

doc = lh.parse(urllib2.urlopen(url)) 

value = doc.xpath('//p/strong/text()')[0] 

print value 

打印结果:

What is 'lorem ipsum'?

通过阅读有关网页上Lorem存有网站,你可以看到文本返回确实有“在它。

我希望这可以帮助你在正确的方向。