什么是通过Spark Streaming处理数据的长期存储(很多写入,很少读取)的更好选择:Parquet,HBase或Cassandra?或者是其他东西?什么是取舍?存储传入流数据的最佳方式是什么?
回答
以我的经验,我们已经使用HBase的数据存储作为火花流数据(我们也有相同的情况下许多写入和读取数),因为我们正在使用Hadoop,HBase的与Hadoop本地集成和效果还不错..
上面我们已经tostore消息的高点击率从安慰过来使用。
HBase非常适合做基于范围的扫描。 Casandra以可用性和许多其他事物而闻名...
但是,我也可以在许多项目中观察到一个大趋势,他们只是通过火花流与火花将rawdata存储在分区结构中的hdfs(parquet + avro)中与火花数据帧(
SaveMode.Append)
并且它们被处理RAWDATA
分区结构的例中HDFS: completion ofbusinessdate/environment/businesssubtype/message type
等.... 在这种情况下没有必要为要HBase的或任何其它数据存储
但上述方法中的一个常见问题是当您通过流式传输时,您需要repartion(1
)或colelese
或FileUtils.copymerge
以满足对单个分区文件的块大小要求。除此之外,还可以。
一致性(所有节点看到在同一时间相同的数据)。
可用性(每个请求收到关于它是否成功或失败的响应)。
分区公差(系统继续 尽管任意分割操作,由于网络故障)
卡桑德拉支持AP。
Hbase支持CP。
请看详细分析,给出here
我的回答有用吗?请随时提问。谢谢! –
- 1. 存储流式传输文本数据的最佳方式
- 2. 什么是存储我的2D数据的最佳方式
- 3. 什么是存储视频流的最佳方式?
- 4. 什么是存储文本数据的最佳方式?
- 5. 什么是存储临时数据的最佳方式?
- 6. 什么是存储趋势数据的最佳方式?
- 7. 什么是存储这些数据的最佳方式?
- 8. 在Docker中存储数据的最佳方式是什么?
- 9. 什么是存储此类数据的最佳方式?
- 10. 存储数据以使用jQuery的最佳方式是什么?
- 11. 什么是存储站点配置数据的最佳方式?
- 12. 存储游戏数据的最佳方式是什么?
- 13. 在iPhone上存储数据的最佳方式是什么?
- 14. 什么是存储简单空间数据的最佳方式
- 15. 存储此数据结构的最佳方式是什么?
- 16. 本地存储数据的最佳方式是什么(IOS - xcode)
- 17. 什么是存储思维导图数据的最佳方式?
- 18. 存储增量下载数据的最佳方式是什么?
- 19. 什么是存储传送带图像的最佳方式?
- 20. 当前流式传输视频的最佳方式是什么?
- 21. 聚合来自NDB数据存储的数据的最佳方式是什么?
- 22. 在mysql数据库中存储html数据的最佳方式是什么?
- 23. 使用Hibernate存储数组的最佳方式是什么?
- 24. 什么是存储持久对象数组的最佳方式?
- 25. 什么是javacard数据存储的最佳解决方案?
- 26. 存储“涂鸦”数据的最佳方法是什么?
- 27. 在数据库中存储IP的最佳方法是什么?
- 28. 存储餐厅checkin count数据的最佳方法是什么?
- 29. iphone-存储数据的最佳方式
- 30. 存储数据的最佳方式
我会建议都因为它具有数据库功能和中alll数据库它拥有最快写入卡桑德拉。 –
请检查我的答案。希望这会有所帮助! –