2015-11-25 94 views
0

我有groupByDataFrame它基于3列。我做这样的事情:火花:组通过条件

myDf.groupBy($"col1", $"col2", $"col3") 

反正我不知道这是如何工作。

它是否管理忽略情况?我需要每个列"FOO""foo"被认为是相同的像“”和null。

如果这不是假定的工作模式,我可以如何添加它?从API文档中,我可以在列上看到apply,但我找不到任何示例。

有什么想法?

+0

你能更准确?这并不完全清楚你想要什么以及它与分组有什么关系。 – zero323

+0

现在还不确定。我停下来使用Dataframe,而我仅使用RDD。我只用50分钟完成相同的事情,而不是20小时。所以在这一点上我不确定是否继续使用groupBy。 – Randomize

回答