在Ruby中，如何从套接字读取UTF-8？

当服务器发送UTF-8字节时，如何在没有字符变为纯字节的情况下读取它们？（\ x40等）在Ruby中，如何从套接字读取UTF-8？

来源

2012-06-27 lcarpenter

您如何阅读套接字？ – Reactormonk

IO :: select（）和IO＃的组合＃read_nonblock – lcarpenter

我相信使用read，这反过来又说：

所得字符串总是ASCII-8BIT编码。

这意味着你不需要指定IO#set_encoding，但你可以的，你看整个串后，迫使其编码（使用String#force_encoding!）到UTF-8。

我强调'整体'，因为您需要确保在字符串末尾读取完整的Unicode字符，就好像只读取了部分字符，您将获得无效的UTF-8字符，并且Ruby可能会抱怨关于它的更进一步。

来源

2012-06-28 06:04:47

您可以使用IO#set_encoding将套接字的外部编码设置为UTF-8。

#!/usr/bin/env ruby 
# -*- coding: utf-8 -*- 

require 'socket' 

server_socket = TCPServer.new('localhost', 0) 
Thread.new do 
    loop do 
    session_socket = server_socket.accept 
    session_socket.set_encoding 'ASCII-8BIT' 
    session_socket.puts "  ᚁ ᚂ ᚃ ᚄ ᚅ ᚆ ᚇ ᚈ ᚉ ᚊ ᚋ ᚌ ᚍ" 
    session_socket.close 
    end 
end 

client_socket = TCPSocket.new('localhost', server_socket.addr[1]) 
client_socket.set_encoding 'UTF-8' 
p client_socket.gets 
# => "|  ᚁ ᚂ ᚃ ᚄ ᚅ ᚆ ᚇ ᚈ ᚉ ᚊ ᚋ ᚌ ᚍ\n"

来源

2012-06-27 13:04:55

如果我用#read_nonblock逐一读取一个套接字的字节，IO＃set_encoding是否会工作？ – lcarpenter

@lcarpenter，我不明白为什么不。你试过了，发现它没有？ –

啊，不，这个方法不太好用 – lcarpenter

在Ruby中，如何从套接字读取UTF-8？

回答

相关问题