2012-04-27 23 views
1

我必须解析HTML文件,它可以达到500 000个链接。 其中40万是我所需要的。Python大名单和数据库输入

我应该将满足新列表条件的所有链接,然后将此列表中的元素放入数据库中。

或者当我找到链接来满足条件将其添加到数据库(sqlite)(并提交它)。 大量提交不是问题吗?

我不想在失败的情况下丢失数据,如电源。这就是为什么我想插入到数据库后提交。

如何最好地在数据库中放置大量的项目?

回答

4

只考虑做每1000条记录提交后左右

1

如果这些环节多在几个文件传播,处理每个文件之后提交有关呢?那么你也可以记住你已经处理了哪些文件。

对于单个文件的情况,请在每次提交后记录文件偏移以保持整个连续。

0

你可以尝试使用像mongo这样的noSQL数据库。有了mongo,我添加了500.000个文档,每个文档增加了大约15秒(在我的旧笔记本电脑上)中的6个字段,在不困难的查询中大约为0.023秒。