我有一个我正在尝试处理的字符串的向量,但我无法摆脱一些奇怪的字符。R摆脱单引号字符
当我看到我用下面的行csv文件:
train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")
我用这条线,试图摆脱标点符号:
train$var1 <- gsub("[[:punct:]]", " ", train$var1)
但是在检查运行它后,我仍然看到奇怪的单引号,'...'和黑点像密码遮掩字符。这里的输入:
dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as",
"<U+25CF>")
任何建议摆脱这些字符?
如何删除除允许字符的“白名单”之外的所有内容?你能定义这样的白名单吗? – 2013-02-27 16:38:38
我该怎么做? – screechOwl 2013-02-27 16:39:18
在'as'中打勾是重音而不是报价。你也有椭圆形的字符,而不是三个句点。 'gsub('[^ A-z0-9]','',x)'只会保留字母和数字,但是会丢失最后一个字符串中的Unicode代表。 – Justin 2013-02-27 16:40:39