我有两个数据帧,我从两个csv文件中加载。例子:PySpark:如何比较两个数据帧
old
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 0.78| 0.7|
| 255836| 0.6| 0.6|
| 245281| 0.78| 0.99|
| 229166| 0.0| 0.7|
+--------+---------+----------+
new
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 1 | 0.7|
| 255836| 0.6| 1 |
| 245281| 0.78| 0.99|
| 333 | 0.0| 0.7|
+--------+---------+----------+
,我想获得:
expected result
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 1 | None|
| 255836| None| 1 |
| 333 | 0.0| 0.7|
+--------+---------+----------+
我一直在摆弄与数据帧的foreach方法,但未能得到它的工作......作为火花新手将不胜感激任何线索。
干杯!
拉斐尔
实际上可以得到最后| 333 | 0.0 | 0.7 |通过使用减法(),通过细胞比较,仍然无能为力。 – Rafael