使用大数据

我有一个约6000万行的文件。我正在尝试编写一个需要不断查询文件以查找名称列表信息的脚本。文件中的每一行都包含一个名称，后跟相关的信息。我试图建立一个字典，但文件太大了。
我搜索了一堆论坛，并听到许多人建议SQlite for python-我只是想知道，在我开始学习SQlite之前，有谁知道这是否对这个大小的文件有帮助？谢谢使用大数据

来源

2014-04-02 user2906979

使用'numpy'从中获取信息文件。 –

numpy可以存储那么多信息吗？ – user2906979

线条有多大？所需的内存量是行长度和记录数量的函数。 –

你可以使用Linux Power工具。 Awk可以很轻松地完成你的工作。

假设你的文件看起来像这样

name1 a b c 

name2 e d r t 

name3 x y

，你想找到名2信息。然后使用这个命令你可以找到

awk -F" " -v name=name2 '{if(name==$1){$1=""; print $0}}' filename

将只输出这样

e d r t

名2的信息，您可以通过多个名称和管理逻辑

来源

2014-04-02 12:00:24

谢谢我试试这个 – user2906979

你可以在一个文件中编写你的脚本并使用-f选项调用该文件。 awk -f script_filename input_filename –

回答

相关问题