我想使用Naive分类器模型来预测Spark dataframe
的输出类,我使用Spark 2.1.0的结构化流式传输功能。 当我尝试这样做:将Spark数据帧转换为Vector
tokenizer = Tokenizer(inputCol="message",outputCol="logTokenize")
tokenizeData = tokenizer.transform(stream_df)
hashingTF = HashingTF(inputCol="logTokenize", outputCol="rawFeatures", numFeatures = 1000)
featurizedData = hashingTF.transform(tokenizeData)
stream_df = featurizedData.select("rawFeatures")
path = "/tmp/NaiveClassifier"
naive_classifier_model = NaiveBayesModel.load(spark.sparkContext,path)
predictions = naive_classifier_model.predict(stream_df)
,我得到了以下错误消息:
TypeError: Cannot convert type <class 'pyspark.sql.dataframe.DataFrame'> into Vector
stream_df
是一个Spark数据框,我想用一个rawFeatures
数据框和预测班列。
我想在那之前,我认为这个问题是朴素分类器对象,当我尝试调用'naive_classifier_model.fit(stream_df)'我得到了一个错误,我认为我无法用'VectorAssembler'的输出调用'predict'函数。是的,最好使用管道,但目前我这样做调试 –
你有vectorassembler尝试同样的错误吗? – Suresh