2014-06-18 27 views
0

我有一个数据文件,有一些法语,日语里面,数据文件看起来如下:摆脱所有非英文字符中的R

我们有两列:

  • Col1中包含一个句子,其中大部分是英语的,其中一些是外语。
  • Col2全是英文。

Col1中是慈祥的样子:

| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants 

我做的是只保留英语。如果我们在一行中找到一个外语词汇。我需要删除整行。

有人知道如何在R?

+1

请提供一个例子,一些代码,你试过。 –

+0

努力并尝试[让你的问题可重现](http://stackoverflow.com/q/5963269/1315767) –

+0

非英语你的意思是非ascii? – asb

回答

1

也许你可以使用textcat包,声称它可以检测到超过74种语言。(它不与阿拉伯工作:()

library("textcat") 
dat <- read.table(text=' 
| _ - 5 | PR - The number of qualified candidates 
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。 
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants' ,sep='|') 

dat[textcat(dat$V3) =="english",] 

V1  V2              V3 
1 NA _ - 5     PR - The number of qualified candidates 
3 NA _ - 8 PR - Quick, easy, inexpensive and plenty of applicants