Spark流和kafka集成

我正在使用kafka和火花流在Python中编程的项目。我想从kafka制作者发送数据到我的流媒体节目。它的工作顺利，当我执行下面的命令指定的依赖关系：Spark流和kafka集成

./spark-submit --packages org.apache.spark：火花流 - 卡夫卡0-8_2.11：2.1.0 ./kafkastreaming的.py

有什么办法，我可以指定依赖关系，并直接运行流码（即不使用火花提交或使用火花提交，但不指定的依赖关系。）

我试图指定spark的conf目录中的spark-defaults.conf中的依赖关系。指定的依赖关系是： 1.org.apache.spark：火花流式卡夫卡0-8_2.11：2.1.0 2.org.apache.spark：火花流-卡夫卡-0-8组装2.1.1

注 - 我称之为火花从 https://spark.apache.org/docs/latest/streaming-programming-guide.html 流媒体使用netcat的引导和它的工作，而无需使用火花提交命令因此，我想知道如果我可以做同样的卡夫卡和火花流。

来源

2017-06-26 Akhilesh

您提供额外的依赖到“罐子”的火花分布文件夹中。停止并再次启动火花。这样一来，西港岛线的依赖在运行时可以解决，而在命令行中

来源

2017-06-26 11:25:30

嗨增加任何额外的选择！我将依赖项“spark-streaming-kafka-0-8_2.11-2.1.0.jar”和“spark-streaming-kafka-0-8-assembly_2.10-2.1.1.jar”添加到“jars”文件夹没有“--packages”选项时执行spark并执行spark-submit，它给出了一个错误，说它找不到这些依赖关系。 – Akhilesh

Spark流和kafka集成

回答

相关问题