我正在寻找有效的方式来加载一个巨大的文件与数据。Python解析一个巨大的文件
该文件的格式如下
2\tword2\tdata
3\tword3\tdata
\r\n
1\tword4\tdata
2\tword2\tdata
\r\n
其中\r\n
定义了包括词句子的结尾。
我感兴趣的加载文件及存入结构,即我想指的句子,并在句子中的词,一般作为结果,我想是这样的
data = [sentence1, sentence2,... ]
其中sentence = [word1,word2,...]
逐行加载文件占用大量时间,批量加载文件效率更高,但是我不知道如何解析数据并将其分为句子。
目前我使用下面的代码
def loadf(filename):
n = 100000
data = []
with open(filename) as f:
while True:
next_n_lines = list(islice(f, n))
if not next_n_lines:
break
data.extend([line.strip().split('\t') for line in next_n_lines])
有了这个代码,我不知道如何将数据传输到句子划分,除了我怀疑extend
实际上没有扩展当前的列表,但创建一个新的一个和重新分配,因为它非常缓慢。
我将不胜感激任何帮助。
“一行加载文件中的行采取了很多的时间,装载分批更有效的文件” - 你能肯定吗?你真的有时间吗? Python以块的形式读取文件以提供行迭代器,因此您不必亲自处理。 – user2357112
什么是文件大小约? –
@TimZimmermann,〜700Mb – user16168