2017-08-07 44 views
1

语料库我创建的语料库中的R用包TM指定语言和编码如下:问题在DocumentTermMatrix与德语

de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl 
    = list(language="de_DE",encoding = "UTF_8")) 
de_DE.corpus[36]$content 
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list 
    (encoding = 'UTF-8')) 
inspect(de_DE.dtm[, grepl("grÃ", de_DE.dtm$dimnames$Terms)]) 
inspect(de_DE.dtm[36, ]) 

如果我看到的,其具有“U”的文本文档36 de_DE.corpus[36]$content内容显示正确。例如“......单北京时间等模具Begründung德BehördeEINE ......”

但是,当我创建DocumentTermMatrix(我试过了编码和语言多个选项)我越来越像“begrÔ其中,例如,是单词“Begründung”。执行inspect(de_DE.dtm[36, ])后查看结果。

<<DocumentTermMatrix (documents: 1, terms: 21744)>> 

Non-/sparse entries: 102/21642 

Sparsity : 100% 

Maximal term length: 43 

Weighting : term frequency (tf) 

Sample : 

Terms 

Docs begrà das dem der die eine einen jobcenter und zum 

36  3 4 2 4 8  2 2  4  3 3 

,如果有人知道如何解决这个问题我将不胜感激。感谢提前:)

+0

哪种操作系统是你吗? – knb

+0

的Windows 10,R版本3.4.1,包“以旧换新” 0.7-1版本 –

+0

我不知道发生了什么事情,但这里有一个潜在的线索: '文本< - “Begründung”;编码(文本)## [1]“UTF-8” 下面是如果我们设置了错误的编码会发生什么: '编码(文本)< - “latin1”;打印(文本)## [1] “Begründung”' –

回答

0

您可以检查您输入的数据?因为你的代码适合我。所以我认为你已经在de_DE.sample中加载它时会遇到问题。

doc<-c("Single ist so die Begründung der Behörde Eine", "Single Begründung Behörde ") 

de_DE.corpus <- Corpus(VectorSource(doc), readerControl 
         = list(language="de_DE",encoding = "UTF_8")) 
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list 
           (encoding = 'UTF-8')) 

inspect(de_DE.dtm[1, ]) 
<<DocumentTermMatrix (documents: 1, terms: 7)>> 
Non-/sparse entries: 7/0 
Sparsity   : 0% 
Maximal term length: 10 
Weighting   : term frequency (tf) 
Sample    : 
    Terms 
Docs begründung behörde der die eine ist single 
    1   1  1 1 1 1 1  1 
+0

嗨@Dr Vcomas,谢谢你的回复。你是对的,问题已经在de_DE.sample中。检查输入数据,如果协商以'编码的编码方式(de_DE.sample [36])',它示出了 “UTF-8”,但如果我申请'的iconv(de_DE.sample [36],以='UTF-8 ')'正在向我展示这些角色,因为“......单身就是这样的死亡原因”。我不明白为什么如果它检测到UTF-8编码正在进行转换,或者我如何正确地处理数据。希望这些额外的信息有人有一个想法如何解决这个问题,并可以帮助我。 :) –

+0

编码问题相当普遍。您将需要检查的过程中,在那里这些数据来自哪里,如果是数据保存与给定的编码,通常脂肪酶提取数据,并用Excel例如,通常引入编码问题打开了一步,在至少从我的经验。检查数据处理的每一步。我希望它有帮助,你仍然可以考虑回答的问题。不是tm或DocumentTermMatrix问题。 –