语料库我创建的语料库中的R用包TM指定语言和编码如下:问题在DocumentTermMatrix与德语
de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl
= list(language="de_DE",encoding = "UTF_8"))
de_DE.corpus[36]$content
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list
(encoding = 'UTF-8'))
inspect(de_DE.dtm[, grepl("grÃ", de_DE.dtm$dimnames$Terms)])
inspect(de_DE.dtm[36, ])
如果我看到的,其具有“U”的文本文档36 de_DE.corpus[36]$content
内容显示正确。例如“......单北京时间等模具Begründung德BehördeEINE ......”
但是,当我创建DocumentTermMatrix(我试过了编码和语言多个选项)我越来越像“begrÔ其中,例如,是单词“Begründung”。执行inspect(de_DE.dtm[36, ])
后查看结果。
<<DocumentTermMatrix (documents: 1, terms: 21744)>>
Non-/sparse entries: 102/21642
Sparsity : 100%
Maximal term length: 43
Weighting : term frequency (tf)
Sample :
Terms
Docs begrà das dem der die eine einen jobcenter und zum
36 3 4 2 4 8 2 2 4 3 3
,如果有人知道如何解决这个问题我将不胜感激。感谢提前:)
哪种操作系统是你吗? – knb
的Windows 10,R版本3.4.1,包“以旧换新” 0.7-1版本 –
我不知道发生了什么事情,但这里有一个潜在的线索: '文本< - “Begründung”;编码(文本)## [1]“UTF-8” 下面是如果我们设置了错误的编码会发生什么: '编码(文本)< - “latin1”;打印(文本)## [1] “Begründung”' –