large-files

1热度

1回答

我一直在研究这个问题，只有很小的成功，所以我来这里得到一些新的建议。我试图将每次扫描的数据提取到单独的文件中。问题是，在创建3196个文件后，我收到错误消息：awk“使得打开的文件太多”。我知道我需要关闭由awk创建的文件，但我不知道该怎么做。文本inputfile中是这样看（最多80个000扫描）： Scan 1 11111 111 22222 221 ... Scan 2 1

0热度

1回答

用低内存低资源处理python中的大数据文件，使用Python/ODBC从SQLserver数据库在本地PC上创建大型数据文件

我对Python很新颖。在我们公司，我们使用Base SAS进行数据分析（ETL，EDA，基本模型构建）。我们想检查是否可以用大块数据替换它。对此，我有以下几个问题： python如何处理大文件？我的电脑有8GB的RAM，我有一个30GB的平面文件（比如csv文件）。我通常会在这样的文件上执行诸如左连接，删除，分组等操作。这在SAS中很容易实现，即我不必担心内存不足。 python中可以执行相同

14热度

3回答

我需要一个100 + MB的测试图像

我正在测试我正在处理的应用程序的大小限制。我需要一个大于100MB的测试图像。我很难找到一个像在线图像往往是比这更小。有没有人知道测试文件的来源，或者有我可以使用的非常大的图像？

0热度

1回答

Git无法在分支中找到文件，但不会提交，因为文件太大

问题：我有一个git分支，我试图推送到远程。推送失败，出现以下消息： Writing objects: 100% (881/881), 31.27 MiB | 821.00 KiB/s, done. Total 881 (delta 691), reused 0 (delta 0) remote: warning: File one.pickle is 79.43 MB; this is la

1热度

1回答

需要Java建议来处理无索引文件中存在的数十亿条记录

我有4个大的.tab文件，其中一个是6GB，其他是10GB。 6GB文件包含有关某个地区的动物的信息，其他3个文件包含与6GB文件中每个动物相关的其他重要信息。我需要编写一个程序，根据某些用户输入从这些大文件生成小数据集。我从6GB文件一行一行地读取动物的数据，如果它们通过了某些标准，它们被存储在一个ArrayList中，否则省略。现在对于ArrayList中的每个动物，我需要一遍又一遍地遍

2热度

1回答

在读取大量文件或lmdb时禁用python文件缓存

我的代码在具有100GB内存的群集节点上的CentOS 6.6上运行。但是，这似乎仍然不够大，因为我的代码需要读取1000个以上的hickle文件（每个200MB）。这完全是240GB。代码运行时，系统内存高速缓存不断增加，直到完成，并且在分配新对象和进行numpy数组计算时，代码性能变得非常慢。我试图做GC.Collect的和德尔，以防止任何内存泄露，但记忆还在不断增加。我怀疑这是由于文件缓存

0热度

1回答

如何从庞大的数据文件中提取特定的行？

我有一个非常大的数据文件，大约32GB。该文件由大约130k行构成，每行主要包含数字，但字符也很少。我需要执行的任务非常清晰：我必须提取20行并将它们写入新的文本文件。我知道我想要复制的20行中每一行的确切行号。所以问题是：如何从大文件中提取特定行号的内容？我在Windows上。有没有可以做这种操作的工具，或者我需要编写一些代码？如果没有直接的方法做这件事，我一直在想，一种可能的方法是首先

0热度

1回答

PHP将JSON/CSV与SQL数据库相匹配（cakePHP）

我想使用cakePHP框架将JSON文件（也可以CSV格式）插入到mySQL数据库中。基本要求很明确，但周围的要求很难： JSON/CSV文件很大（大约200 MB，最多200.000行）。该文件包含几个字段。这些字段需要映射到mySQL数据库中具有不同名称的字段。该CSV包含一个名为art_number的字段。该字段也存在于mySQL数据库中。 art_number是唯一的，但不是mySQL

2热度

3回答

打开大型CSV文件？

我有一个文件，我需要导入到MS-SQL数据库，但我无法打开它，因为我的电脑只有4 Gig的RAM ..我通常使用CSV分割器来缩小大文件，但它是不工作的文件（155场演出）谁能告诉我一个方法来处理这个文件导入到数据库中（除了购买新电脑更好的硬件）谢谢

0热度

1回答

如何对30gb文件进行排序重复有1至1000个数字

我有30个gb文件，其中只有1至1000个数字是重复的。我想知道如何对文件进行排序，并且需要先将文件加载到内存中。我已经通过其他的链接，但不同意排序多个文件块并将其保存在临时文件中。正如我相信在流程结束时，我将剩下两个大文件（每个15 GB）进行排序。我无法加载每个合并和排序。有什么建议吗？