摆脱所有非英文字符中的R

我有一个数据文件，有一些法语，日语里面，数据文件看起来如下：摆脱所有非英文字符中的R

我们有两列：

Col1中包含一个句子，其中大部分是英语的，其中一些是外语。
Col2全是英文。

Col1中是慈祥的样子：

| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants

我做的是只保留英语。如果我们在一行中找到一个外语词汇。我需要删除整行。

有人知道如何在R？

来源

2014-06-18 user3754216

请提供一个例子，一些代码，你试过。 –

努力并尝试[让你的问题可重现]（http://stackoverflow.com/q/5963269/1315767） –

非英语你的意思是非ascii？ – asb

也许你可以使用textcat包，声称它可以检测到超过74种语言。（它不与阿拉伯工作:(）

library("textcat") 
dat <- read.table(text=' 
| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants' ,sep='|') 

dat[textcat(dat$V3) =="english",] 

V1  V2              V3 
1 NA _ - 5     PR - The number of qualified candidates 
3 NA _ - 8 PR - Quick, easy, inexpensive and plenty of applicants

来源

2014-06-18 21:30:01 agstudy

摆脱所有非英文字符中的R

回答

相关问题