我有一个包含大约200万个文件的文件夹。我需要运行下面的命令:如何结合多个sed和awk命令?
sed -i 's/<title>/<item><title>/g;s/rel="nofollow"//g;s/<\/a> •/]]><\/wp:meta_value><\/wp:postmeta><content:encoded><![CDATA[/g;s/By <a href="http:\/\/www.website.com\/authors.*itemprop="author">/<wp:postmeta><wp:meta_key><![CDATA[custom_author]]><\/wp:meta_key><wp:meta_value><![CDATA[/g' /home/testing/*
sed -i '$a]]></content:encoded><wp:status><![CDATA[draft]]></wp:status><wp:post_type><![CDATA[post]]></wp:post_type><dc:creator><![CDATA[Database]]></dc:creator></item>\' /home/testing/*
awk -i inplace 1 ORS=' ' /home/testing/*
我遇到的问题是,当我运行的第一个命令,它循环通过全部2个亿个文件,然后我移动到第二个命令等。问题是我基本上总共要打开600万次文件。
我更喜欢当每个文件打开时,所有3个命令都在它上面运行,然后它移动到下一个。希望这是有道理的。
你考虑过[Perl](https://www.perl.org/)吗? **正是这***是Perl存在的原因(IMO)。 –
一个文件需要多长时间?也许你应该首先将你的文件夹分割成子文件夹/批处理文件。更多的CPU的一个系统,并希望并行处理?也许在不同的磁盘上。 –
我想你会先做一个备份。 'sed -i'也会生成临时文件。我会将输出重定向到新文件。 –