2013-04-23 24 views
1

我希望能够使用类似tm的软件包能够用R分割和识别非英文字符(主要是日文/泰文/中文)。我想要什么要做的就是将它转换成某种格式的矩阵,然后为文本分类运行随机森林/逻辑回归。有没有可能使用tm或其他R包来做到这一点?如何用R处理中文/日文字符

+1

StackOverflow适用于更具体的问题,通常涉及您编写的实际代码。 – joran 2013-04-23 16:46:12

+0

我想要字符,正则表达式就足够了(一些正则表达式引擎甚至为这些语言中的字符提供了字符类:'\ p {Han}','\ p {Hiragana}'等等)。如果你想要的话,这是棘手的;对于日文,我曾经使用MeCab形态分析仪,对于这种形态分析仪显然是[R软件包](http://rmecab.jp/wiki/index.php?RMeCab) - 但对于大型文本,它可能更容易从命令行使用它。 – 2013-04-23 17:10:36

回答

2

编辑:

它看起来像R有一个很难读非英语字符的文本。如果字符编码是一致的,我试图从网上抓取中文字母并得到一个可能有用的结果。

### Require package used to parse HTML Contents of a web page 
require(XML) 
### Open an internet connection 
url <- url('http://www.chinese-tools.com/characters/alphabet.html') 
### Read in Content line by line 
page <- readLines(url, encoding = "UTF-8") 
### Parse HTML Code 
page <- htmlParse(page) 
### Create a list of tables 
page <- readHTMLTable(page) 
### The alphabet is contained in the third table of the page 
alphabet <- as.data.frame(page[3]) 

你现在有美国字母字符的列表,与另一列对应于如何将这些字符被读入R.如果他们在你的原始对象相同的方式,你希望我的文字宣读,是否有可能使用正则表达式一次搜索这些编码字符?

+1

要获得正确的字符,您可能需要指定编码:'readLines(url,encoding =“UTF-8”)'。 – 2013-04-23 17:30:24

相关问题