问题在DocumentTermMatrix与德语

语料库我创建的语料库中的R用包TM指定语言和编码如下：问题在DocumentTermMatrix与德语

de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl 
    = list(language="de_DE",encoding = "UTF_8")) 
de_DE.corpus[36]$content 
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list 
    (encoding = 'UTF-8')) 
inspect(de_DE.dtm[, grepl("grÃ", de_DE.dtm$dimnames$Terms)]) 
inspect(de_DE.dtm[36, ])

如果我看到的，其具有“U”的文本文档36 de_DE.corpus[36]$content内容显示正确。例如“......单北京时间等模具Begründung德BehördeEINE ......”

但是，当我创建DocumentTermMatrix（我试过了编码和语言多个选项）我越来越像“begrÃ”其中，例如，是单词“Begründung”。执行inspect(de_DE.dtm[36, ])后查看结果。

<<DocumentTermMatrix (documents: 1, terms: 21744)>> 

Non-/sparse entries: 102/21642 

Sparsity : 100% 

Maximal term length: 43 

Weighting : term frequency (tf) 

Sample : 

Terms 

Docs begrÃ das dem der die eine einen jobcenter und zum 

36  3 4 2 4 8  2 2  4  3 3

，如果有人知道如何解决这个问题我将不胜感激。感谢提前:)

来源

2017-08-07 Sandra Meneses

哪种操作系统是你吗？ – knb

的Windows 10，R版本3.4.1，包“以旧换新” 0.7-1版本 –

我不知道发生了什么事情，但这里有一个潜在的线索： '文本< - “Begründung”;编码（文本）## [1]“UTF-8” 下面是如果我们设置了错误的编码会发生什么： '编码（文本）< - “latin1”;打印（文本）## [1] “BegrÃ¼ndung”' –

您可以检查您输入的数据？因为你的代码适合我。所以我认为你已经在de_DE.sample中加载它时会遇到问题。

doc<-c("Single ist so die Begründung der Behörde Eine", "Single Begründung Behörde ") 

de_DE.corpus <- Corpus(VectorSource(doc), readerControl 
         = list(language="de_DE",encoding = "UTF_8")) 
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list 
           (encoding = 'UTF-8')) 

inspect(de_DE.dtm[1, ]) 
<<DocumentTermMatrix (documents: 1, terms: 7)>> 
Non-/sparse entries: 7/0 
Sparsity   : 0% 
Maximal term length: 10 
Weighting   : term frequency (tf) 
Sample    : 
    Terms 
Docs begründung behörde der die eine ist single 
    1   1  1 1 1 1 1  1

来源

2017-08-09 15:42:11

嗨@Dr Vcomas，谢谢你的回复。你是对的，问题已经在de_DE.sample中。检查输入数据，如果协商以'编码的编码方式（de_DE.sample [36]）'，它示出了 “UTF-8”，但如果我申请'的iconv（de_DE.sample [36]，以='UTF-8 '）'正在向我展示这些角色，因为“......单身就是这样的死亡原因”。我不明白为什么如果它检测到UTF-8编码正在进行转换，或者我如何正确地处理数据。希望这些额外的信息有人有一个想法如何解决这个问题，并可以帮助我。 :) –

编码问题相当普遍。您将需要检查的过程中，在那里这些数据来自哪里，如果是数据保存与给定的编码，通常脂肪酶提取数据，并用Excel例如，通常引入编码问题打开了一步，在至少从我的经验。检查数据处理的每一步。我希望它有帮助，你仍然可以考虑回答的问题。不是tm或DocumentTermMatrix问题。 –

问题在DocumentTermMatrix与德语

回答

相关问题