我需要遍历数百万次的两个文件, 统计整个文件中单词对出现的次数。 (为了打造的两个词列联表来计算费希尔精确检验得分)Python:通过文件快速迭代
我目前使用
from itertools import izip
src=tuple(open('src.txt','r'))
tgt=tuple(open('tgt.txt','r'))
w1count=0
w2count=0
w1='someword'
w2='anotherword'
for x,y in izip(src,tgt):
if w1 in x:
w1count+=1
if w2 in y:
w2count+=1
.....
虽然这是不坏,我想知道是否有任何更快的方法遍历两个文件,希望显着更快。
我很感谢你的帮助。
您需要提供更多信息。请澄清您的具体问题或添加更多的细节,以确切地突出你所需要的。正如目前所写,很难确切地说出你在问什么。 –
@InbarRose我添加了更多信息。请让我知道如果它仍然不够:) – ytrewq
那么,仍然有很多信息丢失。你在这里显示的任何代码中使用的任何变量,你应该显示声明,例如:什么是src,tgt,w1,w2,w1count和w2count? –