我有一个来自IoT应用程序的带有JSON数据的Kafka代理。我从Spark Streaming应用程序连接到此服务器以执行一些处理。如何访问Spark Streaming应用程序中的缓存数据?
我想保存在内存(RAM)我的JSON数据的一些特定领域,我相信我可以使用cache()
和persist()
运营商实现。
下一次当我在Spark Streaming应用程序中接收到新的JSON数据时,我检查内存(RAM)是否有可以检索的公用字段。如果是的话,我做一些简单的计算,最后我更新存储在内存中的字段的值(RAM)。
因此,我想知道我之前所描述的是否有可能。如果是,我必须使用cache()还是persist()?我怎样才能从记忆中检索我的领域?