我是Hive新手;所以,我不确定公司如何使用Hive。让我给你一个场景,看看我在使用Hive的概念上是否正确。什么是Hive常见用例?
假设我的公司希望保留一些Web服务器日志文件,并且始终能够搜索并分析日志。因此,我创建了一个表格列,其中对应于日志文件中的列。然后我将日志文件加载到表中。现在,我可以开始查询数据。因此,随着数据在未来的日期发布,我只是不断地将数据添加到此表中,因此我始终将我的日志文件作为Hive中的表格进行搜索和分析。
这种情况是否超出常见用途?如果是这样,那么我如何不断向表中添加新的日志文件?我是否必须每天都手动将它们添加到表格中?
你说,我可以用水槽将数据带入HDFS。但是,这些数据如何添加到同一张表中?答案可能很简单,你假设我知道。但是这些数据如何添加到表格中? –
所有的Hive都是HDFS位置的元数据。把更多的数据放在HDFS路径上,Hive可以查询它 –
我不认为你理解我的问题。我知道我可以使用Hive查询HDFS上的任何数据;但我希望他们都成为同一张桌子的一部分。为了澄清,我们假设我是MySQL;那么随着数据的进入,我只需将它插入到同一个表中,然后我就可以在同一个表上进行查询。这就是我想要的,假设数据进入后的10年,我的过程会将数据添加到同一个表中,因此在查询中,我查询同一个表。 –