首先,我需要承认我是Bluemix和Spark的新手。我只想用Bluemix Spark服务试用我的双手。Bluemix Spark Service
我想对文本文件中的十亿条记录执行批处理操作,然后我想用我自己的一组Java API来处理这些记录。
这是我想要使用Spark服务来启用对数据集进行更快处理的位置。
这里是我的问题:
我可以调用Java代码在Python?据我了解,目前只支持Python样板文件?我的Java API下面几乎没有JNI。
我可以使用Bluemix Spark服务执行批处理操作,还是仅用于交互目的?
我可以使用Bluemix创建类似管道(一个阶段的输出转到另一个阶段)的东西,我需要为它编写代码吗?
对于上述查询,我将不胜感激。
期待这里的一些专家建议。
谢谢。
感谢修正 – Gaurav