是的。真的匹配任何角色？

我用一个很简单的sed脚本删除注释：sed -e 's/--.*$//'是的。真的匹配任何角色？

，直到非ASCII字符出现在评论它的伟大工程，例如：-- °。该行与正则表达式不匹配，未被替换。

任何想法如何让.真正匹配任何字符？

解决方案：

由于file说，这是一个ISO8859的文本，LANG环境变量必须在调用sed之前可以更改： LANG=iso8859 sed -e 's/--.*//' -

来源

2012-03-13 Julio Guerra

这对我的作品。这可能是一个字符编码问题。

这可能帮助：

来源

2012-03-13 10:38:45 Anonymoose

@胡格拉：我遇到了类似的情况，试图删除线，如如下因素（注意Æ字符）：

--MP_/yZa.b._zhqt9OhfqzaÆC

在一个文件中，使用

sed 's/^--MP_.*$//g' my_file

由Linux file命令指示的文件编码为

file my_file: ISO-8859 text, with very long lines 
file -b my_file: ISO-8859 text, with very long lines 
file -bi my_file: text/plain; charset=iso-8859-1

我想你的解决方案，具有不同的排列（聪明！）;例如，

LANG=ISO-8859 sed 's/^--MP_.*$//g' my_file

但这些都不奏效。我发现了两种解决方法：

以下Perl表达式工作，即删除的行：

perl -pe 's/^--MP_.*$//g' my_file

[对于-pe命令行开关的解释，请参见本StackOverflow的答案：

Perl flags -pe, -pi, -p, -w, -d, -i, -t?]

或者，在将文件编码转换为UTF-8后，sed表达式起作用（Æ字符保留，但现在是UTF8编码）：

iconv -f iso-8859-1 -t utf8 my_file > my_file.utf8

由于我用各种编码的电子邮件很多（1000年），经历中间处理（bash中，脚本转换为UTF-8并不总是工作），我的目的“的解决方案在1个工作“上面可能会是最强大的解决方案。

注：

的sed（GNU SED）4.4
的perl v5.26.1专为x86_64的Linux的线程多
的Arch Linux x86_64系统上

来源

2018-01-16 18:01:13

的文档GNU sed的z命令提到了这个效果（我强调）：

该命令清空模式空间的内容。通常是与's /.*//'相同，但效率更高，并且在输入流中存在无效多字节序列。 POSIX 要求这样的序列是而不是匹配'。'，因此没有可移植的方式来清除大多数多字节语言环境（包括UTF-8语言环境）中脚本的中间的sed缓冲区。

您似乎可能正在以UTF-8（或其他多字节）语言环境运行sed。您需要设置LC_CTYPE（这比LANG更细致，并且不会影响错误消息的转换。有效区域设置名称通常看起来像en.iso88591或（对于您的配置文件中的位置）fr_FR.iso88591，而不仅仅是编码本身 - 你也许能看到locale -a完整列表

例子：

LC_CTYPE=fr_FR.iso88591 sed -e 's/--.*//'

或者，如果您知道该行的非注释部分仅包含ASCII，你可能分裂。在评论标记上打印第一部分并丢弃其余部分：

sed -e 's/--/\n/' -e 'P' -e 'd'

来源

2018-01-16 19:16:12

是的。真的匹配任何角色？

回答

相关问题