我在一些大的(几百万行)生物信息数据集工作与一般格式的大的文本文件行比较:行,用蟒蛇
chromosomeNumber locusStart locusStop sequence moreData
我有这种格式的其他文件:
chromosomeNumber locusStart locusStop moreData
我需要做的是将每种文件类型中的一种读入内存,并且如果上层文件的一行的locusStart位于较低文件中任何行的开始和停止之间,则print要输出文件1的行。如果该行的locusStart不在启动和停止之间然后将其打印到输出文件2.
我正在阅读中的文件,将它们转换为键入染色体的字典并将相应的行作为值。然后我将每个值线分成一个字符串,然后与字符串进行比较。这需要很长时间,我想知道是否有更有效的方法来做到这一点。
谢谢。
这将有助于看到您的实际代码 – dfb 2011-03-28 20:29:27
老实说,我不明白什么是指像_upper _文件和_lower _文件 – neurino 2011-03-28 20:29:46
@neurino方面 - 我觉得上下指的是代码块的OP。 至于我想我会读文件2第一,区间进行排序,然后运行文件1个一行一行的问题 - 这完全忽略了chromosomeNumber虽然如此,@ user680895,请澄清一下? – 2011-03-28 20:38:51