0
我有一个包含n
行的文本文件,每行都是一个字符串。如何用R中的文本字符串查找/替换所有的URL /链接使用正则表达式
我想将其导入R并使用正则表达式从(具体地)以http
开始依次删除所有URL。
下一个交互式的正则表达式检查中工作(重新设计器Emacs的),而不是在R
gsub("http:.*?[([:space:])| |\n]", "", x))
注意
这个问题,并在下面干我的答案给出从this question正则表达式引擎及其相互之间的兼容性。
在SO中有很多答案描述了在R-regex模式参数中需要加倍反斜杠。我建议删除这个答案(这将失败与https和ftp网址)和问题,因为我真的不认为他们添加任何东西,而不是证明你没有阅读''正则表达式'非常仔细,并没有工作在'?sub'中的例子。 –
虽然我同意你写的大部分内容,但我确实说过我只需要带有http的URL - 而不是ftp - 并且我担心你错了,它能为'https'工作。而且,像我这样的非程序员并不总是可以简单地阅读帮助或小插图并理解所有内容,特别是类似正则表达式的东西。我想我的答案有助于像我一样帮助需要和结果的人。我花了很长时间找到这个答案,现在别人不需要。当你不一定知道要搜索什么时,很难找到所有的东西。我会使我的OP更清晰/更具体。 –