使用bash将一行中的字符串分配给变量

我有以下文本文件，我需要比较每行的值，即项目2-4与项目5-7中的值。我坚持使用bash/awk/sed。使用bash将一行中的字符串分配给变量

的样本数据：

[hartford tmp]$ cat flist 
a1 1 2 3 x y z 
b1 3 2 1 z y x 
c1 1 2 3 1 2 3 
d1 4 5 6 6 5 4 
e1 a b c a b c 
f1 x y z x y z

它与下面的脚本，但它只是不能忍受缓慢，可能是因为所有的echo S的。

[hartford tmp]$ cat pdelta.sh 
#!/bin/bash 

cat flist |while read rec; do 
    f1="$(echo $rec | awk '{ print $1 }')" 
    f2="$(echo $rec | awk '{ print $2 }')" 
    f3="$(echo $rec | awk '{ print $3 }')" 
    f4="$(echo $rec | awk '{ print $4 }')" 
    f5="$(echo $rec | awk '{ print $5 }')" 
    f6="$(echo $rec | awk '{ print $6 }')" 
    f7="$(echo $rec | awk '{ print $7 }')" 

    if [[ "x${f2} x${f3} x${f4}" != "x${f5} x${f6} x${f7}" ]]; then 
      echo "$f1 DOES NOT MATCH" 
    fi 
done

当运行时，输出正好是我正在查找的内容，但处理长度为50k +行的文件时速度太慢。

[hartford]$ ./pdelta.sh 
a1 DOES NOT MATCH 
b1 DOES NOT MATCH 
d1 DOES NOT MATCH

什么是更有效的方法来实现这一目标？

来源

2012-09-05 user1117603

为了完整起见，还要注意'set $ rec'会将第一个字段分配给'$ 1'，第二个分配给'$ 2'等。 – tripleee

您可以使用awk输出所有匹配的ID：

awk '{ if ($2 == $5 && $3 == $6 && $4 == $7) { print $1 } }' < flist

来源

2012-09-05 10:22:04 choroba

完美。谢谢。 – user1117603

或'$ 2 == $ 5 && $ 3 == $ 6 && $ 4 == $ 7 {print $ 1}'。 – Thor

或者'$ 2 $ 3 $ 4 == $ 5 $ 6 $ 7 {print $ 1}'（稍微不够强大，但是我相信可以满足问题的限制。） –

您可以使用read将变量分配：

$ while read f1 f2 f3 f4 f5 f6 f7; do stuff; done <flist

来源

2012-09-05 10:22:31

使用perl：

perl -lane 'print $F[0] if @F[1..3] ne @F[4..6]' input_file

来源

2012-09-05 10:24:01 perreal

你确定吗？ 'perl -e'@ v =（0,1,2,1）; print @v [0,1] eq @v [2,3]'' – choroba

你不需要'split'，'-a' alread需要处理：'perl -lane'print $ F [0] if @F [1 ..3] ne @F [4..6]''。 – Thor

有多种方法可以做到这一点（在Perl中）。 – 2012-09-05 12:24:32

Python的解决方案：

import sys 

for line in sys.stdin: 
    f1, f2, f3, f4, f5, f6, f7 = line.split() 
    if not (f2, f3, f4) == (f5, f6, f7): 
     print f1, "does not match"

用法：

$ python f.py < flist 
a1 does not match 
b1 does not match 
d1 does not match

来源

2012-09-05 10:32:28

一些修正：

不要cat单个文件到管道;只是重定向循环的标准输入。
read可以将每一行分成合适的变量。
因为您正在使用bash [[...]]构造，所以您不需要使用用单个字符前缀可能为空的字符串的旧技巧。直接比较相应的值。

所以你的循环减少了

while read f1 f2 f3 f4 f5 f6 f7; do 
    if [[ $f2 != $f5 || $f3 != $f6 || $f4 != $f7 ]]; then 
     echo "$f1 DOES NOT MATCH" 
    fi 
done < flist

您也可以使用数组来减少甚至进一步

while read -a f; do 
    if [[ ${f[@]:1:3} != ${f[@]:4:3} ]]; then 
     echo "${f[0]} DOES NOT MATCH" 
    fi 
done < flist

的${f[@]:x:y}符号扩展到从索引xy元素。

来源

2012-09-05 12:23:22 chepner

使用bash将一行中的字符串分配给变量

回答

相关问题