2010-03-15 32 views
-4

我有一个Unicode文件(UTF-16 FFFE little-endian BOM),其中包含标签分隔字段的行。Tab/LF/CR Unicode字符

阅读Splitting unicode (I think) using .split in ruby,我将使用Ruby拆分(文件到行,然后行到字段)。

顺便说一句,有什么的Unicode字符为:

  • LF
  • CR
  • 标签

谢谢!

+1

这真的是你的问题,Unicode中这三个字符的代码点是什么? –

+2

我同意,这真的是个问题吗?这可以通过在互联网上进行快速检查来回答,但可供将来参考:http://www.unicode.org/charts/#symbols,特别是http://www.unicode.org/charts/PDF/U0000。 pdf和http://en.wikipedia.org/wiki/Basic_Latin_Unicode_block –

+0

我问的都是unicode字符,还有Ruby语法中的unicode代码。 假设blob(blob = Record.first.file_attached)正在存储UTF-16原始数据。那么:rows = blob.split(“\ u000D”) rows.size return 1 如果我做了一个u8rows = Iconv.conv(“ \ n“) u8rows.size是232 我的问题是:什么是Unicode CR/LF字符用于分裂UTF-16 FFFE一滴,在Ruby中 – ohho

回答

4

Unicode的TAB是u0009。 LF是u000a而CR是u000d

与ASCII实际上相同。

+2

很简单,因为统一的前256个代码点是相同的以拉丁语-1。而第一个128则使用ASCII。 – Joey