Pyspark - 最大/最小参数

我有一个查询。在Pyspark当我们需要基于获得总（SUM）（键，值），我们的查询倒像是：Pyspark - 最大/最小参数

RDD1 = RDD.reduceByKey(lambda x , y: x + y)

地方，当我们需要找到MAX/MIN值（键，值）我们的查询读起来就像

RDD1 = RDD.reduceByKey(lambda x , y: x if x[1] >= y[1] else y)

在不使用x[1]，Y[1]，其中作为同样是使用了MAX/MIN为什么我们总结的数据？请澄清疑问。

Rgd的

你错了，你已经把这段代码取消了上下文。在这两种情况下，x和y都是指数值。

lambda x , y: x if x[1] >= y[1] else y

相当于：

lambda x, y: max(x, y, key=lambda x: x[1])

它可以通过第二元件比较值，并意味着每个值：

例

sc.parallelize([(1, ("a", -3)), (1, ("b", 3))]) \ 
    .reduceByKey(lambda x , y: x if x[1] >= y[1] else y).first()

将(1, ('b', 3))因为3比-3大。

2016-12-31 13:22:32 user7337271

回答