的NoSQL或YesSQL

我有话的巨大词典：的NoSQL或YesSQL

"word1" => [value1] 
"word2" => [value2] 
"word3" => [value3, value2] 
... 
"word400000000" => [value455, value3435, ..., value3423]

数量的单词是非常大的。

现在我希望能够检索到所有正在被word指向的values。 word是字符串值。

什么是最好的工具使用？我想到了简单的数据库解决方案，但DBA的人说，它不会工作真的很快。

因此，在我打开Cormen的书之前，是否有一些针对该问题的现成解决方案？

2011-01-31 David

在RDMSs（YesSQL），你将最有可能与LIKE或=运营商在所有记录搜索值，即搜索将耗费为O（n）。您实际需要的是一种称为inverted index的数据结构，它允许您在O（1）中查找所需值的列表。有关结构和算法的说明，请参阅维基百科文章，以了解随时可用的工具。

有大量反向索引的实施方式的在搜索引擎像Lucene/Solr，Sphinx（其中，顺便说一下，支持几个数据库作为数据源），以及在一些键值存储像Berkeley DB或Apache Cassandra。搜索引擎和关键值存储之间的区别在于：

搜索引擎实行倒排索引更直接（据我所知，键值数据块使用BigTable样结构，是复杂得多，然后倒排索引本身）。
搜索引擎有大量的文本分析工具（解析，词干）。我不知道，如果你真的需要它，但如果你这样做，使用搜索引擎。
键值DB是真实的数据库。也就是说，与搜索引擎不同的是，他们有真实数据类型，不仅是字符串。此外，一些这样的DB（例如Berkeley DB）可以存储编程语言本地数据类型而不将它们转换为任何内部格式。因此，如果您需要一个包含所有功能的真实数据库，请使用键值存储。

另请注意，倒排索引结构非常简单，所以如果以前的选项都不适合您，您可以轻松地自行实现它。

2011-01-31 22:57:35 ffriend