我有一个这样的文件:如何删除除换行符之外的所有非单词字符?
my line - some words & text
oh lóok i've got some characters
我想“正常化”,并删除所有非单词字符。我想这样的事情结束了:
mylinesomewordstext
ohlóokivegotsomecharacters
我此刻的命令行中使用Linux,而我希望能有一些一班轮我可以使用。
我尝试这样做:
cat file | perl -pe 's/\W//'
但是,删除所有的换行,把一切一行。有什么我可以告诉Perl不要在\W
中包含换行符?或者有其他方法吗?
这会在原始文本中删除带重音符号的o。 – 2009-09-09 11:24:33
您必须在命令中添加一个标志才能使其具有Unicode意识-C应该这样做。 http://perldoc.perl.org/perlrun.html#Command-Switches – 2009-09-09 12:37:34
对,改变了。 – sth 2009-09-09 13:18:52