我有一个名为'str'的字符串,我从加载RDS文件中获得。ngram包的文本编码问题
此字符串包含法语口音,在R studio控制台中显示得很好。 但是,在此字符串上使用ngram包时,重音字符不会显示正确。
如果我直接在R中定义一个重音字符串,它工作得很好(请参阅下面的代码中的'str2')。
我该如何解决这个问题,例如,在我的原始字符串上强制使用新的编码。
str # console displays "crédit hypothécaire en juillet"
ng <- ngram(str, n = 2,sep= " ")
get.phrasetable(ng)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
str2 <- "crédit hypothécaire en juillet"
ng2 <- ngram(str2, n = 2,sep= " ")
get.phrasetable(ng2)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
编辑:
建议链接(handling special characters e.g. accents in R)未提供的验证答案解决我的问题,所以它不是一个重复的问题,但它确实提供了一些线索,请参见下面
答案
首先想到,不要使用str,因为它是R中的一个内部函数。请参阅'?str'表示我的意思。 –
[处理特殊字符例如在R的口音](http://stackoverflow.com/questions/9511281/handling-special-characters-eg-accents-in-r) –
@ErikSchutte它用于所有的ngram包的例子,所以我保持一致: ) –