协议缓冲区python - unicode解码错误

我需要在我的python - 龙卷风服务器上接收协议缓冲区消息，并从二进制消息中获取内容。协议缓冲区python - unicode解码错误

postContent = self.request.body 
message = prototemp.ReqMessage() 
message.ParseFromString(postContent)

它可以完美的使用测试工具。当我在沙箱环境中运行，并模拟从我的客户1000个请求，它工作在某些情况下，但在大多数的请求，它抛出一个异常 -

File "server1.py", line 21, in post 
    message.ParseFromString(postContent) 
    File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/message.py", line 179, in ParseFromString 
    self.MergeFromString(serialized) 
    File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 755, in MergeFromString 
    if self._InternalParse(serialized, 0, length) != length: 
    File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse 
    pos = field_decoder(buffer, new_pos, end, self, field_dict) 
    File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 544, in DecodeField 
    if value._InternalParse(buffer, pos, new_pos) != new_pos: 
    File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse 
    pos = field_decoder(buffer, new_pos, end, self, field_dict) 
    File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 410, in DecodeField 
    field_dict[key] = local_unicode(buffer[pos:new_pos], 'utf-8') 
UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 1: invalid continuation byte

在另一些情况下，它给出了这些错误 -

UnicodeDecodeError: 'utf8' codec can't decode byte 0xbf in position 3: invalid start byte 

UnicodeDecodeError: 'utf8' codec can't decode byte 0xe7 in position 3: unexpected end of data

可能是什么原因？

来源

2012-06-09 Aditya Singh

你尝试使用try/except子句打印正在生成异常的字符串？或者使用'pdb'来查看这个变量是什么？因为它告诉你这个问题：字符串中指定位置的某些字符不能用utf-8编码。所以要么你需要处理这个角色。（如果你能弄清楚它是什么以及你是否一般处理它，你将能够处理它） –

我的第一个猜测是测试客户端使用UTF-16，因为那些字节没有似乎与UTF-8或任何有意义的西方图表相匹配 –

听起来就像它正在接收一条它缺少协议定义的消息。一个或多个发射器是否使用不同的规格？ – MarkHu

我和RabbitMQ和Protocol Buffers有完全相同的问题。问题是协议缓冲区假定输入是str类型，而在某些情况下（如果字节数组包含大于127的字节），RabbitMQ似乎将消息解码为unicode。龙卷风也可能发生同样的情况。到目前为止，似乎，该问题可以通过下面的代码段来解决：

body = self.request.body 
if type(body) == unicode: 
    data = bytearray(body, "utf-8") 
    body = bytes(data) 
message = whatever.FromString(body)

此代码接通Unicode字符串到蟒字节对象，其可以通过协议缓存消息来愉快地解析。不知道是否有更好的方法来做到这一点，但至少这似乎工作。

来源

2013-06-10 20:17:42 user2472341

+1。谢谢！你救了我很多恶化。你能告诉我什么是字节（数据）吗？当我在交互式Python中，我做了一个帮助（字节），我没有看到有关此功能的任何信息。谢谢！ – Bitdiot

这不是一个函数。这是一个python类型。 –

如果你转移到python3，你将不会有这些问题。只是在说' –

我遇到同样的问题。

以下是参考文献[1]。

在这种情况下，我们应该使用字节。

谢谢。

[1] https://developers.google.com/protocol-buffers/docs/proto#scalar

来源

2016-07-12 05:22:07 shuxiong

协议缓冲区python - unicode解码错误

回答

相关问题