large-files

    1热度

    1回答

    我一直在研究这个问题,只有很小的成功,所以我来这里得到一些新的建议。 我试图将每次扫描的数据提取到单独的文件中。 问题是,在创建3196个文件后,我收到错误消息:awk“使得打开的文件太多”。 我知道我需要关闭由awk创建的文件,但我不知道该怎么做。 文本inputfile中是这样看(最多80个000扫描): Scan 1 11111 111 22222 221 ... Scan 2 1

    0热度

    1回答

    我对Python很新颖。 在我们公司,我们使用Base SAS进行数据分析(ETL,EDA,基本模型构建)。我们想检查是否可以用大块数据替换它。对此,我有以下几个问题: python如何处理大文件?我的电脑有8GB的RAM,我有一个30GB的平面文件(比如csv文件)。我通常会在这样的文件上执行诸如左连接,删除,分组等操作。这在SAS中很容易实现,即我不必担心内存不足。 python中可以执行相同

    14热度

    3回答

    我正在测试我正在处理的应用程序的大小限制。我需要一个大于100MB的测试图像。我很难找到一个像在线图像往往是比这更小。有没有人知道测试文件的来源,或者有我可以使用的非常大的图像?

    0热度

    1回答

    问题:我有一个git分支,我试图推送到远程。推送失败,出现以下消息: Writing objects: 100% (881/881), 31.27 MiB | 821.00 KiB/s, done. Total 881 (delta 691), reused 0 (delta 0) remote: warning: File one.pickle is 79.43 MB; this is la

    1热度

    1回答

    我有4个大的.tab文件,其中一个是6GB,其他是10GB。 6GB文件包含有关某个地区的动物的信息,其他3个文件包含与6GB文件中每个动物相关的其他重要信息。 我需要编写一个程序,根据某些用户输入从这些大文件生成小数据集。 我从6GB文件一行一行地读取动物的数据,如果它们通过了某些标准,它们被存储在一个ArrayList中,否则省略。 现在对于ArrayList中的每个动物,我需要一遍又一遍地遍

    2热度

    1回答

    我的代码在具有100GB内存的群集节点上的CentOS 6.6上运行。但是,这似乎仍然不够大,因为我的代码需要读取1000个以上的hickle文件(每个200MB)。这完全是240GB。代码运行时,系统内存高速缓存不断增加,直到完成,并且在分配新对象和进行numpy数组计算时,代码性能变得非常慢。 我试图做GC.Collect的和德尔,以防止任何内存泄露,但记忆还在不断增加。我怀疑这是由于文件缓存

    0热度

    1回答

    我有一个非常大的数据文件,大约32GB。该文件由大约130k行构成,每行主要包含数字,但字符也很少。 我需要执行的任务非常清晰:我必须提取20行并将它们写入新的文本文件。 我知道我想要复制的20行中每一行的确切行号。 所以问题是:如何从大文件中提取特定行号的内容?我在Windows上。有没有可以做这种操作的工具,或者我需要编写一些代码? 如果没有直接的方法做这件事,我一直在想,一种可能的方法是首先

    0热度

    1回答

    我想使用cakePHP框架将JSON文件(也可以CSV格式)插入到mySQL数据库中。基本要求很明确,但周围的要求很难: JSON/CSV文件很大(大约200 MB,最多200.000行)。 该文件包含几个字段。这些字段需要映射到mySQL数据库中具有不同名称的字段。 该CSV包含一个名为art_number的字段。该字段也存在于mySQL数据库中。 art_number是唯一的,但不是mySQL

    2热度

    3回答

    我有一个文件,我需要导入到MS-SQL数据库,但我无法打开它,因为我的电脑只有4 Gig的RAM ..我通常使用CSV分割器来缩小大文件,但它是不工作的文件(155场演出) 谁能告诉我一个方法来处理这个文件导入到数据库中(除了购买新电脑更好的硬件) 谢谢

    0热度

    1回答

    我有30个gb文件,其中只有1至1000个数字是重复的。我想知道如何对文件进行排序,并且需要先将文件加载到内存中。 我已经通过其他的链接,但不同意排序多个文件块并将其保存在临时文件中。正如我相信在流程结束时,我将剩下两个大文件(每个15 GB)进行排序。我无法加载每个合并和排序。 有什么建议吗?