2013-11-09 146 views

回答

2

Drill仍处于alpha状态,文档非常有限。如果您需要稳定性,Cloudera Impala可能是短期内更好的选择。

您需要学习两件事 - 如何将数据导入Drill可以使用的表单以及如何运行查询。后者很简单 - 学习SQL。

前者比较复杂。这些非常有限的例子在Twitter的Parquet数据格式中使用本地文件,因此这将是一个很好的开始。对于更实际的(即分布式)场景,请了解HDFS(Hadoop分布式文件系统)和Zookeeper,HBase或MongoDB。

警告 - 如果您真的想在真正的大数据环境中使用Drill(您不应该这样做,因为它在alpha模式下),您会发现这是一个陡峭的学习曲线,需要大量复杂的信息。打破它一个很好的方法可能是:

  • SQL - 尝试SQLite的
  • NoSQL数据库 - MongoDB的
  • 分布式文件系统 - HDFS
  • 管理分布式环境 - 动物园管理员
  • 分布式键值存储 - HBase
  • 实时分布式查询 - 钻取或Impala。