对不起,我将尽可能具体。在python中合并词典
我正在研究文本挖掘应用程序。我有大量的键值对的形式((字,语料库) - > occurence_count)(一切都是一个整数),我存储在多个Python字典(元组 - >诠释)。这些值分布在磁盘上的多个文件中(我对它们进行了腌制)。为了理解数据,我需要汇总这些字典基本上,我需要找出一种方法来查找所有字典中某个特定键的所有出现,并将它们相加以获得总数。
如果我同时加载多个词典,我耗尽内存,这是我给他们摆在首位分裂的原因。当我尝试时,我遇到了性能问题。我目前正在尝试将值存储在数据库(mysql)中,一次处理多个字典,因为mysql提供了行级锁定,这两者都很好(因为这意味着我可以并行化该操作),而且不好(因为它会减慢插入查询)
我在这里有什么选择?编写部分磁盘的字典是否是一个好主意,这样我就可以一次处理一个字典?用LRU替换策略?有什么我完全无视的东西吗?
谢谢!
定义“大数”。 “我用完了内存”。真?没有像词典中的元素数量这样的细节,我觉得这很难理解。 “当我尝试时,我遇到了性能问题”。试过什么? –
当你说“一切都是整数”时,你的意思是说单词和语料库是单词和语料库的整数ID?单词id在各个语料库中是否一致? – forefinger
谢谢大家!我重新定义了一些问题来解决它。 – fsm