2017-05-03 29 views
1

我使用Python Scrapy抓取this link。所有的文件都有# -*- coding: utf-8 -*-在开始Python Scrapy不返回中文字符

并提取产品的标题,我有这个代码。

response.css("h1.d-title::text").extract_first()

这说明

2017\xe6\x98\xa5\xe5\xa4\x8f\xe6\x96\xb0\xe6\xac\xbe\xe5\xa5\xb3\xe5\xa3\xab\xe8\xbf\x90\xe5\x8a\xa8\xe9\x9e\x8b\xe9\x9f\xa9\xe7\x89\x88\xe4\xbc\x91\xe9\x97\xb2\xe7\xbd\x91\xe5\x8d\x95\xe9\x9e\x8bsport shoes men\xe5\xa4\x96\xe8\xb4\xb8\xe6\x89\xb9\xe5\x8f\x91 

如果我去做

response.css("h1.d-title::text").extract_first().decode('gbk').encode('utf-8')

它给我的错误

UnicodeEncodeError: 'ascii' codec can't encode characters in position 4-19: ordinal not in range(128)

我在网上尝试了其他的替代方法,但都没有成功。

虽然如果我在Python终端(无Scrapy)中这样做,它完全打印中文!

>>> s = "2017\xe6\x98\xa5\xe5\xa4\x8f\xe6\x96\xb0\xe6\xac\xbe\xe5\xa5\xb3\xe5\xa3\xab\xe8\xbf\x90\xe5\x8a\xa8\xe9\x9e\x8b\xe9\x9f\xa9\xe7\x89\x88\xe4\xbc\x91\xe9\x97\xb2\xe7\xbd\x91\xe5\x8d\x95\xe9\x9e\x8bsport shoes men\xe5\xa4\x96\xe8\xb4\xb8\xe6\x89\xb9\xe5\x8f\x91" 
>>> print s 
2017春夏新款女士运动鞋韩版休闲网单鞋sport shoes men外贸批发 

为什么它给出正确的输出print

回答

0

根据与print s您的示例代码,我假设你正在使用Python 2.7

当我给你列出的网站我得到了这个结果上运行

response.css("h1.d-title::text").extract_first() 

u'2017\u6625\u590f\u65b0\u6b3e\u5973\u58eb\u8fd0\u52a8\u978b\u97e9\u7248\u4f11\u95f2\u7f51\u5355\u978bsport shoes men\u5916\u8d38\u6279\u53d1' 

意味着scrapy已经将结果转换为一个unicode对象(这正是我所期望的)。

然后在其上运行decode('gbk')将因为解码尝试将其解释为gbk编码的字符串而失败。

所以,如果你需要将其转换为UTF-8(而不是仅仅使用Unicode对象,我宁愿),你应该这样做:

response.css("h1.d-title::text").extract_first().encode('utf-8') 

结果:

'2017\xe6\x98\xa5\xe5\xa4\x8f\xe6\x96\xb0\xe6\xac\xbe\xe5\xa5\xb3\xe5\xa3\xab\xe8\xbf\x90\xe5\x8a\xa8\xe9\x9e\x8b\xe9\x9f\xa9\xe7\x89\x88\xe4\xbc\x91\xe9\x97\xb2\xe7\xbd\x91\xe5\x8d\x95\xe9\x9e\x8bsport shoes men\xe5\xa4\x96\xe8\xb4\xb8\xe6\x89\xb9\xe5\x8f\x91' 

它打印您期望的相同的字符串。

除此之外,使用Python3通常是一个好主意,因为它可以处理大多数开箱即用的情况。

1

Scrapy Selector将返回一个unicode字符串列表,请参阅Using selectors with regular expressions。你需要做的是将unicode编码为UTF-8,不需要解码为gbk,然后编码回utf-8。

title = response.css("h1.d-title::text").extract_first().encode('utf-8') 

对于蟒蛇终端打印,我觉得你的环境的默认编码为UTF-8,你可以输入你的Python终端:

>>> import sys 
>>> print sys.stdout.encoding 
UTF-8 

在打印unicode字符串,它会转换到UTF-8然后打印出来。