我正在研究一个将作为模拟工具链数据集的OLAP引擎的系统。这些工具以XML格式生成结果。使用Spark和C处理XML文件#
对我来说,最简单和最简单的解决方案就是直接使用spark-xml直接使用python,Scala等来访问XML文件。但问题是项目所有者想要使用C#,因为这就是原始的模拟工具链是内置的。我知道C#有SparkCLR,但我不知道在C#中使用Spark-XML的好方法。
有没有人有任何建议如何做到这一点?如果没有,我猜下一个选择是将数据集翻译成更加本地化的SparkCLR,但不确定最佳方法。
我发现这个https://github.com/Microsoft/SparkCLR,它允许我编写C#代码来与Spark交互。但我想要与Spark Spark-XML上的XML代码进行交互。让这两个人一起工作将是挑战。我唯一能做的就是制定一个临时措施,并使用某些东西来获取XML数据(例如Apache Nifi,flume等),并以其他一些方式存储它,这些方式在C#/ SparkCLR中更容易使用。 –