我的任务是弄清楚如何扩展spark的api,以包含iPython Notebook等其他程序的一些自定义钩子以锁定。我已经通过了quick start guide,the cluster mode overview,submitting applications doc和this stack overflow question。一切我看到指示,如果要得到的东西在星火运行,你需要使用如何扩展apache spark api?
火花提交
做到这一点。因此,我掀起了一些代码,这些代码可以从我创建的accumulo表中抽出10行测试数据。然而,我的团队领导正告诉我修改火花本身。这是完成我描述的任务的首选方式吗?如果是这样,为什么?什么是价值主张?
真的吗?通过倒票驱动?这位男士,这是胆怯的。是否真的很难阅读这个问题并发表一些深思熟虑的批评? – 2015-03-13 19:50:48
请详细说明“自定义钩子”:你试图达到什么目的(不,我没有downvote:你的问题是一个合理的开始)。特别是 - SqlContext或RDD需要额外的功能吗?或者你可以结合现有的实现你的需求? – javadba 2015-03-13 21:11:30
@javadba - thx的回复 - 如果你投降了,这将会非常酷!我最近非常沮丧,因为SO的政策是允许匿名驾驶 - 通过投票。我们正在努力在spark和accumulo之间建立一个链接,以使像Notebook这样的东西可以坐在火花之上并访问accumulo数据,使用spark来执行地图缩减操作等,以及完全需要什么 - 在这一点上,我没有'吨从我的领导收到细节。但是,他确实指出了几何尺寸,并告诉我阅读他们的代码,我现在正在做这些代码。 – 2015-03-13 21:21:06