2010-11-24 85 views
0

如何从文本中删除链接?我认为我应该使用sed命令,但我不知道确切的语法。删除文本链接

+0

你应该举例说明你有什么和你想要什么。你的意思是HTML链接?你想对文件中其余的HTML做什么?您应该使用Perl或Python库或其他专门用于处理HTML的工具。正则表达式[不足](http://stackoverflow.com/q/1732348/26428#1732454)。 – 2010-11-24 17:22:57

+0

[查找链接并将它们从HTML中移除]的可能重复(http://stackoverflow.com/questions/1784507/find-links-and-remove-them-from-html) – 2010-11-24 17:24:03

回答

0

这将删除一切.com.org结束:

sed 's/\s\?\w\+\.\(com\|org\)//g' foo.txt 

输入:

lallalalala blabla.com babababab hehehe.org. 

输出:

lallalalala babababab. 

编辑:这里是POSIX标准。我还添加了一些更多的字符匹配情况下,有可能是子域或协议(http://

sed 's/[[:space:]]\?[A-Za-z0-9_\/\:\.-]\+\.\(com\|org\)//g' foo.txt 

另外请注意,这并不能掩盖该域名后缀后引用资源的所有可能的URL字符的URL( example.com/query?foo=bar)。