0
我在pyspark以下RDD,我相信这应该是很简单的事,但一直没能弄明白:pyspark RDD扩大一行到多行
information = [ (10, 'sentence number one'),
(17, 'longer sentence number two') ]
rdd = sc.parallelize(information)
我需要申请,轮流说RDD这个转型:
[ ('sentence', 10),
('number', 10),
('one', 10),
('longer', 17),
('sentence', 17),
('number', 17),
('two', 17) ]
基本上扩大了一句关键的,与字作为键多行。
我想避免SQL。
外观极好!简短,简单,可以理解! – Franch