我希望能够使用类似tm的软件包能够用R分割和识别非英文字符(主要是日文/泰文/中文)。我想要什么要做的就是将它转换成某种格式的矩阵,然后为文本分类运行随机森林/逻辑回归。有没有可能使用tm或其他R包来做到这一点?如何用R处理中文/日文字符
1
A
回答
2
编辑:
它看起来像R有一个很难读非英语字符的文本。如果字符编码是一致的,我试图从网上抓取中文字母并得到一个可能有用的结果。
### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])
你现在有美国字母字符的列表,与另一列对应于如何将这些字符被读入R.如果他们在你的原始对象相同的方式,你希望我的文字宣读,是否有可能使用正则表达式一次搜索这些编码字符?
+1
要获得正确的字符,您可能需要指定编码:'readLines(url,encoding =“UTF-8”)'。 – 2013-04-23 17:30:24
相关问题
- 1. 如何在PHP中使用fgetcsv()来处理日文字符?
- 2. 使用R处理日志文件
- 3. 如何处理不想要的字符日期与strptime R中
- 4. RCurl处理中文字符
- 5. 如何处理R中的hdf5文件?
- 6. 如何在资源(.resx)文件中处理字符串文字
- 7. 创建CSV文件时,如何处理字段中的\ n和\ r字符?
- 8. 如何处理日文字符的HTML,PHP和MySQL
- 9. CMD /批处理 - 删除UTF-8文件中的字符文件名(例如日文,中文字符)
- 10. 如何在url中处理日文名?
- 11. 如何处理与写入pdf文件中文字符
- 12. 处理德文字符
- 13. 在R中处理大文本文件
- 14. 如何将字符样式应用于文字处理文档中的运行?
- 15. 字符串处理文档字符串
- 16. 如何在bash中使用美元字符($)处理文件名?
- 17. 如何使用pyspark saveAsTextFile处理中文字符
- 18. 如何使用日文字符管理数据库中的ID
- 19. Java中的中文字符串处理?
- 20. 用批处理文件替换文本文件中的字符
- 21. 如何从批处理文件中的文本文件中获取字符串?
- 22. 处理ASCII文件中的Unicode字符?
- 23. 在C中处理非英文字符#
- 24. 批处理文件中的Unicode字符
- 25. 获取日文字符以R显示
- 26. 如何从批处理文件中调用批处理文件?
- 27. 如何在Hadoop/PIG中处理非ASCII /亚洲/中文字符
- 28. 如何在R中使用TermDocumentMatrix来处理波斯语文本?
- 29. 如何使用特殊字符在批处理文件中创建文件夹?
- 30. 如何使用nl2br()处理字符串'\ r \ n'?
StackOverflow适用于更具体的问题,通常涉及您编写的实际代码。 – joran 2013-04-23 16:46:12
我想要字符,正则表达式就足够了(一些正则表达式引擎甚至为这些语言中的字符提供了字符类:'\ p {Han}','\ p {Hiragana}'等等)。如果你想要的话,这是棘手的;对于日文,我曾经使用MeCab形态分析仪,对于这种形态分析仪显然是[R软件包](http://rmecab.jp/wiki/index.php?RMeCab) - 但对于大型文本,它可能更容易从命令行使用它。 – 2013-04-23 17:10:36