我想用pyspark解决以下问题。 我有一个hdfs格式的文件,它是查找表的转储。在pyspark中创建一个大字典
key1, value1
key2, value2
...
我想加载到python字典中的pyspark并将其用于其他目的。所以我试图做到:
table = {}
def populateDict(line):
(k,v) = line.split(",", 1)
table[k] = v
kvfile = sc.textFile("pathtofile")
kvfile.foreach(populateDict)
我发现表变量没有被修改。那么,有没有办法在spark中创建一个大的内存哈希表?
很感谢。这是否意味着地图必须适合驱动程序的内存?还是它仍然分布? – Kamal
@Kamal是啊它必须适应内存。 U可以使用pair rdd作为查找表。也想到一个可积累的解决方案,将很快发布 – aaronman
好吧。我正在寻找火花中的分布式地图。看起来不可能! – Kamal