我要问,如果你对我怎么可以在 pyspark当我使用。加入(注明很多条件的任何想法)pyspark加入多个条件
例子: 与蜂巢:
query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE )\
但在pyspark我不知道如何使它,因为以下内容:
df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')
不起作用!
你能PLZ粘贴DataFrame.join错误信息?或者尝试在RDD中使用keyBy/join,它支持很好的等连接条件。 –