2011-04-28 25 views
0

我不知道如何添加多字节编码支持,并且对多字节语言知之甚少。 正在使用搜索引擎,我的应用程序使用所有编程语言扫描代码。 某些源代码可能在其注释部分使用CJK编码。 为了方便起见,我将java作为源代码示例,我的应用程序也在java中。java中的多字节编码

首先,我想编写测试用例来查看待索引的源代码是否具有CJK编码,以及它是否由我的应用程序编码。 如果支持不包含,我希望我的测试失败,以便将来可以添加。

但是我不知道如何测试它, 如何在单元测试的输入样本中引入CJK,以及在Java应用程序控制台中输出什么。

+0

您通常想知道您将事先处理哪些编码,因为我不知道确定某个特定文件的编码是否有直接的方法(如果有的话)。如果你有一个输入编码的选择,UTF8/Unicode是要走的路,否则你可能必须用用户可选择的编码来混淆。 – 2011-04-28 18:49:29

+0

所有的Unicode编码都是多字节的,不是吗?无论如何,它是不可能*检测*你有哪种编码。你*必须*被告知在哪种编码中应该处理数据。 – tchrist 2011-04-28 19:10:00

+0

这是不是很清楚你在这里问什么。您是否希望以特定字符编码读取文件,确定文件的字符编码方式,使用特定字符编码创建文件以测试您的工作或者将这些文件组合在一起? – 2011-04-28 19:11:23

回答