我正尝试在Scala上使用Spark将数据写入Cassandra表。有时火花任务在两者之间失败,并且有部分写入。当新任务从第一个开始时,Spark是否会回滚部分写入。向Cassandra插入数据的Spark作业
1
A
回答
0
不,但如果我是对的,你可以重新处理你的数据。这将覆盖部分写入。在写入Cassandra时,当您尝试使用相同主键插入数据时,会使用一种更新(upsert)。
2
否.Spark(和Cassandra就此而言)不会基于整个任务执行提交样式插入。这意味着你的写作必须是幂等的,否则你最终会出现奇怪的行为。
相关问题
- 1. Spark将数据插入Cassandra
- 2. 向cassandra插入大量数据
- 3. 使用Spark + Cassandra利用数据局部性执行作业
- 4. Java中使用嵌入式Cassandra服务器测试Cassandra-Spark作业的示例
- 5. 使用spark将数据写入cassandra
- 6. 使用Spark DataFrame将数据插入Cassandra表
- 7. Spark流不会将数据插入到Cassandra
- 8. Spark Streaming - Java - 从Kafka插入JSON到Cassandra
- 9. 如何知道行数使用Spark插入cassandra
- 10. 更新\在Spark SQL中插入Cassandra计数器值
- 11. 将数据插入Cassandra时出错
- 12. 在Cassandra中插入数据DB
- 13. 无法将数据插入Cassandra./
- 14. Spark-Cassandra VS Spark-Elasticsearch
- 15. 将少量数据写入Spark的Cassandra表中
- 16. Spark-cassandra-connector:toArray不起作用
- 17. 使用Spark将数据保存到Cassandra
- 18. Spark作业服务器中的Spark作业“java.lang.NoClassDefFoundError:org/apache/spark/sql/SQLContext”的错误
- 19. 使用apache spark创建cassandra插入的timeuuid
- 20. 向contacts2.db插入数据
- 21. Spark DataFrame和Cassandra
- 22. Spark - Cassandra连接
- 23. Spark-Scala与Cassandra
- 24. 如何使用Spark Cassandra连接器插入TimeUUID和TimeStamp?
- 25. 使用Spark Scala插入时间戳到Cassandra
- 26. 插入排序作业
- 27. 延迟作业批插入
- 28. 可以将Spark作业的输出用作另一个Spark作业的输入吗?
- 29. 以数据库反向插入数据
- 30. 向数据库中插入空数据
有关如何使它们具有幂等性的任何输入?我面临的问题与cassandra表中的重复记录与任务之间的故障之间,并从头开始重新启动任务 –
大家好,任何投入就此? –
确保你没有写入重试时改变的内容。警惕非幂等操作(添加到列表和地图)。基本幂等事物。无论代码执行多少次,您都应该保持一致。 – RussS