2017-06-26 131 views
0

我正在使用kafka和火花流在Python中编程的项目。我想从kafka制作者发送数据到我的流媒体节目。它的工作顺利,当我执行下面的命令指定的依赖关系:Spark流和kafka集成

./spark-submit --packages org.apache.spark:火花流 - 卡夫卡0-8_2.11:2.1.0 ./kafkastreaming的.py

有什么办法,我可以指定依赖关系,并直接运行流码(即不使用火花提交或使用火花提交,但不指定的依赖关系。)

我试图指定spark的conf目录中的spark-defaults.conf中的依赖关系。 指定的依赖关系是: 1.org.apache.spark:火花流式卡夫卡0-8_2.11:2.1.0 2.org.apache.spark:火花流-卡夫卡-0-8组装2.1.1

注 - 我称之为火花从 https://spark.apache.org/docs/latest/streaming-programming-guide.html 流媒体使用netcat的引导和它的工作,而无需使用火花提交命令因此,我想知道如果我可以做同样的卡夫卡和火花流。

回答

0

您提供额外的依赖到“罐子”的火花分布文件夹中。停止并再次启动火花。这样一来,西港岛线的依赖在运行时可以解决,而在命令行中

+0

嗨增加任何额外的选择!我将依赖项“spark-streaming-kafka-0-8_2.11-2.1.0.jar”和“spark-streaming-kafka-0-8-assembly_2.10-2.1.1.jar”添加到“jars”文件夹没有“--packages”选项时执行spark并执行spark-submit,它给出了一个错误,说它找不到这些依赖关系。 – Akhilesh

相关问题