2014-04-02 20 views
0

我有一个约6000万行的文件。我正在尝试编写一个需要不断查询文件以查找名称列表信息的脚本。文件中的每一行都包含一个名称,后跟相关的信息。我试图建立一个字典,但文件太大了。
我搜索了一堆论坛,并听到许多人建议SQlite for python-我只是想知道,在我开始学习SQlite之前,有谁知道这是否对这个大小的文件有帮助? 谢谢使用大数据

+0

使用'numpy'从中获取信息文件。 –

+0

numpy可以存储那么多信息吗? – user2906979

+0

线条有多大?所需的内存量是行长度和记录数量的函数。 –

回答

0

你可以使用Linux Power工具。 Awk可以很轻松地完成你的工作。

假设你的文件看起来像这样

name1 a b c 

name2 e d r t 

name3 x y 

,你想找到名2信息。然后使用这个命令你可以找到

awk -F" " -v name=name2 '{if(name==$1){$1=""; print $0}}' filename 

将只输出这样

e d r t 

名2的信息,您可以通过多个名称和管理逻辑

+0

谢谢我试试这个 – user2906979

+0

你可以在一个文件中编写你的脚本并使用-f选项调用该文件。 awk -f script_filename input_filename –