我想在R上做一个表情符号分析。 我已经存储了一些有emojis的推文。表情符号在R [UTF-8编码]
这里是推特的一个,我想分析:
> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc
\xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"
可以肯定的说我有 “UTF-8”:
> Encoding(tweetn2)
[1] "UTF-8
“ 现在,当我试图认识一些字,它不工作的罚款
> grepl("\\xed",tweetn2)
[1] FALSE
或
> grepl("xed",tweetn2)
[1] FALSE
但似乎表情符号,“\固定的\ XA0 \ XBD”不是“UTF-8”编码,因为我得到一个错误信息,当我写:
> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1
我找到一种解决方案通过用iconv()函数和“ASCII”编码有:
http://www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r/
但我想用“UTF-8”为我的分析,以保持,因为它与法国的特殊字母效果良好(A,E,E,E ,ë,û等)
那么你有一个想法,我怎么能超过它?
谢谢
只使用一个反斜杠:'grepl(“\ xed”,tweetn2)'。 '\ xed'是一个单独的字符,所以没有反斜线,并且你的字符串不包含子字符串'“xed”'。 – Stibu
感谢您的帮助,但它不工作: '> grepl(“\固定的”,tweetn2) [1] FALSE' – Woza