我要寻找一些基于Java的解决方案以满足以下需求:任何基于DSL的框架都能够进行数据集操纵?
- 引擎简单DSL的执行
DSL它允许数据集操作。例如:因为我需要一些分组操作。我不想用Java编写它。我可以放下类似
maxSalary = max(组(薪金,“金额”));
..或者如果组运营商不存在,很容易扩展它。
- 数学函数应当存在,或准备用于扩展
据我明白我需要的东西是简单的ETL。我想Informatica或Pentaho可以完成这项工作。另一方面,我尝试了解Spring Batch和Apache Camel是否可以为我做到这一点。不幸的是,我没有看到春季批次的任何DSL。
所以,你可以请我指导一些框架或框架类型,以适应我的需求?
谢谢hiropon! Pig用于存储在HDFS中的数据,即在磁盘上。实际上我不认为我需要以这种方式存储转换结果。但另一方面,这是一个很好的建议,因为我可以在没有Java编码的情况下在Pig DSL中编写脚本。 – MiamiBeach