2015-04-03 31 views
1

我正在学习使用Hadoop执行大数据相关操作。如何将xls数据从多个xls文件加载到配置单元中?

我需要对8个xls文件中的数据集合进行一些查询。每个xls文件都有多个工作表,查询只涉及其中一个工作表。

数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html

我没有使用Hadoop我的任务,任何商用的发行版,只是有一个主机和从机VM在其中设立在VMWARE使用Hadoop,蜂巢,猪。

我是一个Hadoop和大数据的新手,所以如果任何人都可以指导我如何进一步进行,我会非常感激。

如果您需要查询或其他任何信息,请告诉我。

谢谢。

回答

3

在配置单元中,您无法直接将数据从xls加载到表中,就像您对txt或csv文件所做的那样。

你有两个选择:

  1. 编写一个应用程序(例如,Java)来读取的XLS文件,并将其转换成可以直接加载到一个蜂巢文本或CSV文件。

OR

  • 您可以创建自己的SERDE(串行解串器或),您提供给您的分析数据XLS被加载到一个表。
  • 两者都有自己的优点和缺点,但如果你打算使用的应用程序与HIVE装载交互,查询,转化等,您可以选择1走不过,如果你打算通过脚本/批办等你可以去选项2.

    +0

    谢谢Srikanth你的答案:) – Abbas 2015-11-11 08:51:36

    +0

    @阿巴斯你能接受答案。谢谢。 – 2015-11-14 08:34:25

    +0

    @srikanthNutigattu我需要使用配置单元读取HDFS中的shapefile文件。我知道我应该使用编写自定义SerDe的选项2。但无法得到任何适当的样本或例子。任何帮助将非常有用 – Learner 2017-01-27 13:28:55

    相关问题