如何用R处理中文/日文字符

我希望能够使用类似tm的软件包能够用R分割和识别非英文字符（主要是日文/泰文/中文）。我想要什么要做的就是将它转换成某种格式的矩阵，然后为文本分类运行随机森林/逻辑回归。有没有可能使用tm或其他R包来做到这一点？如何用R处理中文/日文字符

2013-04-23 Pritish Kakodkar

StackOverflow适用于更具体的问题，通常涉及您编写的实际代码。 – joran 2013-04-23 16:46:12

我想要字符，正则表达式就足够了（一些正则表达式引擎甚至为这些语言中的字符提供了字符类：'\ p {Han}'，'\ p {Hiragana}'等等）。如果你想要的话，这是棘手的;对于日文，我曾经使用MeCab形态分析仪，对于这种形态分析仪显然是[R软件包]（http://rmecab.jp/wiki/index.php?RMeCab） - 但对于大型文本，它可能更容易从命令行使用它。 – 2013-04-23 17:10:36

编辑：

它看起来像R有一个很难读非英语字符的文本。如果字符编码是一致的，我试图从网上抓取中文字母并得到一个可能有用的结果。

### Require package used to parse HTML Contents of a web page 
require(XML) 
### Open an internet connection 
url <- url('http://www.chinese-tools.com/characters/alphabet.html') 
### Read in Content line by line 
page <- readLines(url, encoding = "UTF-8") 
### Parse HTML Code 
page <- htmlParse(page) 
### Create a list of tables 
page <- readHTMLTable(page) 
### The alphabet is contained in the third table of the page 
alphabet <- as.data.frame(page[3])

你现在有美国字母字符的列表，与另一列对应于如何将这些字符被读入R.如果他们在你的原始对象相同的方式，你希望我的文字宣读，是否有可能使用正则表达式一次搜索这些编码字符？

来源

2013-04-23 16:53:25 Andreas

要获得正确的字符，您可能需要指定编码：'readLines（url，encoding =“UTF-8”）'。 – 2013-04-23 17:30:24

如何用R处理中文/日文字符

回答

相关问题