2014-02-14 13 views
0

因此,降低后完成其工作,我们有存储在文件中是这样的数据:在reduce生成输出后如何检索文档?

enter image description here

但是,当发生什么类型的用户的东西吗?当数据存储在文件中时如何执行搜索?

+1

你的问题是不是夹板请详细说明为全文的源 – Jijo

回答

2

MapReduce用于处理。因此,一旦处理完数据并生成了HDFS上的聚合信息,您将不得不在某些程序中读取文件以显示给用户。或者有几个备选选项可用于从HDFS中读取数据: 您可以使用Hive并在此数据之上创建一个表并使用SQL查询来读取数据。一个简单的Web应用程序可以使用向配置单元提供JDBC接口的thrift服务器连接到此应用程序。 其他选项包括将数据加载到HBase,Shark等全部取决于你的用例是汇总数据的大小的interms,性能要求

1

你在MapReduce之后构建的是一个倒排索引,一个很好的小数据结构体。现在你必须使用它。

例如,在谷歌的情况下,这个倒排索引在许多服务器上被分割,并将整个列表存储在每个服务器上。因此,例如,服务器500具有要使用的列表,而另一个具有待使用的列表。这些是实现细节,如果可以将索引保存在内存中,理论上可以将它存储在一个大散列中的一个框中。

当客户在发动机中输入文字时。它将检索整个列表。如果有多个单词,它将做这些列表的交集,以显示具有这两个单词的文档。

这里是他们是如何做http://infolab.stanford.edu/~backrub/google.html

参见“图4.谷歌查询评估”