2014-02-13 47 views
1

我有一大堆的字符串看起来是这样的:解析字符串转换为数据帧

[3] " 3. Wiki: Los Angeles 3:58pm; score:1.959502"   
[4] " 4. Wiki: Boston 6:58pm; score:1.959502"    
[5] " 5. Disambiguation: 'Boon; score:1.934644"    
[6] " 6. Wiki: The Note (album)\"; score:1.786931"   

我分析他们进入这样一个数据帧:

read.csv(text=sub("^ [0-9]*\\. (Wiki|Disambiguation): (.*); score:([0-9\\.]*)$","\"\\2\",\\3",ll), 
     header=FALSE,stringsAsFactors=FALSE) 

麻烦的是,该\\2文本我用引号引起来的内容可能包含引号(双精度和单精度)本身。

我该如何处理?海报后,给了它是如何出错的例子更改答案:

+0

确实会在',“\”\\ 2 \“,''到',”\'\\ 2 \'help中更改double到single吗? (* | 0-9] * \\。(Wiki | Disambiguation):(。*); score:([0-9 \\。] *)$“,”\'\' \'''2''',\\ 3“,'hello') ' – rawr

回答

1

只需卸下双引号:

ll <- gsub('"', '', ll) 

注意。

+0

我在引起我悲伤的地方加了引号 – sds

相关问题