0
我有一个名为'df1'的数据框,它有X行,假设为1000.我想要做的是获得该数据框的具体子采样并保存为另一个。例如,我想从'df1'中提取400到700行并将其保存为'df2'。如何提取数据框的具体子样本并保存在pyspark中的另一个数据框中?
我知道,一个可能的方式越来越“DF1”的内容与载体:
list = df1.collect()
subsample = list[400:700]
df2 = sc.createDataFrame(subsample, attributes)
但我的问题是:是否有越来越不加载数据的相同结果的任何其他方式一个列表?我这样问,因为当你有一个巨大的数据集时,使用collect和产生另一个数据框可能不会有效地加载数据。
谢谢。
没有行号的星火。 – mtoto
不,但是如果你有一个增量的'IDENT'属性,相当于一个行号的表示? – jartymcfly
然后你可以使用'filter()' – mtoto