2017-02-10 47 views
-1

在我们公司,我们使用HDFS。到目前为止,所有工作都已经完成,我们可以使用查询来提取数据HDFS数据统计

在过去,我曾与Project R一起工作过很多次,对我的分析来说总是很棒。所以我检查了Project R和HDFS(rbase,rhdfs,...)的支持。

尽管如此,我还是有点困惑,因为我发现了大量的教程,他们使用保存在CSV文件中的简单数据进行分析。不要误解我的意思。这很好,但我想问问是否有可能编写查询,提取数据并在一次运行中进行统计。或者换句话说:当我们谈论HDFS中存储的数据的统计信息时,你如何处理这个问题?

非常感谢,希望你们中的一些人能帮我看看我的问题的优缺点。

所有最好的 - 彼得

回答

0

你可能想看看Apache HiveApache Spark。虽然还有很多其他的选择,但我不确定当数据不是在文件中传给您时,您是否在问如何处理来自hdfs的数据。