查找文件

我有三个文本文件之间的共同名单：查找文件

的fileA：

13 abc 
123 def 
234 ghi 
1234 jkl 
12 mno

FILEB：

12 abc 
12 def 
34 qwe 
43 rty 
45 mno

fileC：

12 abc 
34 sdg 
43 yui 
54 poi 
54 def

我想看看第二列中的所有值都是matc在文件之间切换。如果第二列已经排序，则以下代码有效。但如果第二列未排序，我如何排序第二列并比较文件？

fileA = open("A.txt",'r') 
fileB = open("B.txt",'r') 
fileC = open("C.txt",'r') 

listA1 = [] 
for line1 in fileA: 
    listA = line1.split('\t') 
    listA1.append(listA) 


listB1 = [] 
for line1 in fileB: 
    listB = line1.split('\t') 
    listB1.append(listB) 


listC1 = [] 
for line1 in fileC: 
    listC = line1.split('\t') 
    listC1.append(listC) 

for key1 in listA1: 
    for key2 in listB1: 
     for key3 in listC1: 
      if key1[1] == key2[1] and key2[1] == key3[1] and key3[1] == key1[1]: 
       print "Common between three files:",key1[1] 

print "Common between file1 and file2 files:" 
for key1 in listA1: 
    for key2 in listB1: 
     if key1[1] == key2[1]: 
      print key1[1] 

print "Common between file1 and file3 files:" 
for key1 in listA1: 
    for key2 in listC1: 
     if key1[1] == key2[1]: 
      print key1[1]

来源

2013-03-29 gthm

如果你只是想通过第二列A1，B1，并C1进行排序，这很容易：

listA1.sort(key=operator.itemgetter(1))

如果你不明白itemgetter，这是相同的：

listA1.sort(key=lambda element: element[1])

不过，我认为更好的解决方法就是使用一个set：

setA1 = set(element[1] for element in listA1) 
setB1 = set(element[1] for element in listB1) 
setC1 = set(element[1] for element in listC1)

或者，更简单地说，首先不要建立列表;做到这一点：

setA1 = set() 
for line1 in fileA: 
    listA = line1.split('\t') 
    setA1.add(listA[1])

无论哪种方式：

print "Common between file1 and file2 files:" 
for key in setA1 & setA2: 
    print key

为了进一步简化它，你可能想重复的东西，第一重构为功能：

def read_file(path): 
    with open(path) as f: 
     result = set() 
     for line in f: 
      columns = line.split('\t') 
      result.add(columns[1]) 
    return result 

setA1 = read_file('A.txt') 
setB1 = read_file('B.txt') 
setC1 = read_file('C.txt')

然后你可以找到更多的机会。例如：

def read_file(path): 
    with open(path) as f: 
     return set(row[1] for row in csv.reader(f))

正如约翰·克莱门茨指出的那样，你甚至不真正需要它们的所有三个是集，只是A1，所以你可以代替做到这一点：

def read_file(path): 
    with open(path) as f: 
     for row in csv.reader(f): 
      yield row[1] 

setA1 = set(read_file('A.txt')) 
iterB1 = read_file('B.txt') 
iterC1 = read_file('B.txt')

您唯一需要的其他变化是，你必须调用intersection而不是使用&运营商，所以：

for key in setA1.intersection(iterB1):

我不确定这最后的改变实际上是一种改进。但在Python 3.3中，你唯一需要做的就是将return set(…)改为yield from (…)，我大概就会这样做。（即使文件很大并且有大量重复的文件，所以出现了性能损失，我只需要在read_file调用周围itertools配方unique_everseen附近。）

来源

2013-03-29 20:22:55 abarnert

或...有'A1'和'A2'作为发电机，用'set'实现最小，然后使用它的'intersection'方法，并保持其他发电机作为发电机... –

@JonClements：是的，A2和A3可以只是一个'（行[csv.reader（f））行'，只有A1需要是一个明确的'set'。 – abarnert

回答

相关问题