我正在尝试在一个庞大的数据集上使用Spark的MLib,我们目前已经在时间序列数据库中保留了这个数据集。假设我们的时间序列数据库中有数据A,B,C,D和E,我想先加载A,B,C并首先进行一些转换,然后将转换后的数据传递给Spark MLib。Apache Spark RDD工作流程
我在这方面有几个问题。是否有我应该考虑的标准工作流程?我的意思是数据的加载,转换对我来说似乎仍然是一个问题。这不是Spark特有的。我想知道使用Apache Camel这样的框架进行ETL是否有任何好处,然后将结果提供给Spark?
有什么建议吗?