0
首先,我创建两个ML算法并将它们保存到两个单独的文件中。请注意,这两种模型都基于相同的数据框。 feature_1
和feature_2
是从相同数据集中提取的不同特征组。保存并加载pyspark中的两个ML模型
import sys
from pyspark.ml.classification import RandomForestClassificationModel
trainer_1 = RandomForestClassifier(featuresCol="features_1")
trainer_2 = RandomForestClassifier(featuresCol="features_2")
model_1 = trainer_1.fit(df_training_data)
model_2 = trainer_2.fit(df_training_data)
model_1.save(sys.argv[1])
model_2.save(sys.argv[2])
然后,当我后来想使用的机型,我必须从各自的路径加载他们两个,f.ex.提供的路径通过sys.argv。
import sys
from pyspark.ml.classification import RandomForestClassificationModel
model_1 = RandomForestClassificationModel.load(sys.argv[1])
model_2 = RandomForestClassificationModel.load(sys.argv[2])
我想要的是一个优雅的方式,可以将这两个模型作为一个整体保存在同一个路径中。我主要这样做,以便用户在每次保存和加载时都不必跟踪两个单独的路径名。这两个模型是紧密相连的,并且通常会一起创建和使用,因此它们只是一种模型。
这是管道的目的是什么?