apache-spark-mllib

2热度

1回答

我在scala Spark中训练了一个LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我检查了我保存的模型，它包含两个文件夹：元数据和数据。然而，当我尝试这种模式加载到PySpark，我得到了一个错误说： model = LDAMod

1热度

1回答

为什么JavaNGramExample会以“java.lang.ClassNotFoundException：scala.collection.GenTraversableOnce $ class”失败？

我想出来的火花简单NGRAM例如 https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaNGramExample.java 这是我的POM依赖 <dependencies> <dependency> <groupId>org.apa

0热度

1回答

如何计算PySpark中两个向量的余弦相似度？

我将要计算两个向量的PySpark余弦相似性，像 1 - spatial.distance.cosine(xvec, yvec) 但SciPy的似乎不支持pyspark.ml.linalg.Vector类型。

2热度

1回答

如何处理Spark中最新的随机森林中的分类特征？

在随机森林的Mllib版本中，有可能使用参数categoricalFeaturesInfo 指定具有名义特征（数值但仍为分类变量）的列什么是ML随机森林？在用户指南there is an example使用VectorIndexer的类别特征转换矢量为好，但它的写有“自动识别类别特征，并对其进行索引” In the other discussion of the same problem我发现数值

0热度

1回答

使用mllib时的矩阵乘法错误

我使用Spark 1.6与YARN，我有一个工作，使用Spark mllib做一些计算，其中之一是矩阵乘法，我使用CoordinateMatrix来做。该代码是这样的： def coordinateMatrixMultiply(leftMatrix: CoordinateMatrix, rightMatrix: CoordinateMatrix): CoordinateMatrix = {

1热度

2回答

mllib矢量的最大值？

我使用mllib创建了一个使用Apache Spark的ML管道。评估结果是一个DataFrame，其中有一列“probability”，它是概率的mllib向量（类似于scikit-learn中的predict_proba）。 val rfPredictions = rfModels.bestModel.transform(testing) val precision = evaluat

0热度

1回答

变换RDD到有效的输入，使用包含与下面的代码CSV文件的目录的火花mllib算法k均值

我计算TF和IDF： import argparse from os import system ### args parsing parser = argparse.ArgumentParser(description='runs TF/IDF on a directory of text docs') parser.add_argument("-i","--input", help

2热度

2回答

将任意数量的列转换为矢量

如何将一组任意列转换为Mllib矢量？基本上，我有我的DataFrame的第一列有一个固定的名称，然后是一些任意命名的列，每个列中都有Double值。像这样： name | a | b | c | val1 | 0.0 | 1.0 | 1.0 | val2 | 2.0 | 1.0 | 5.0 | 可以是任何数量的列。我需要获得以下数据集： final case class Values

1热度

1回答

sparklyr：spark_apply函数不能在集群模式下工作

我组合了两个具有不同行数的数据帧。使用cbind.na功能组合qpcR库组合两个数据帧。它显示了在我的本地机器中正确使用spark_apply功能的结果。但是，在集群模式下，它显示如下错误。注意：单个数据框显示集群和本地的结果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

0热度

1回答

PySpark中的ParamGridBuilder无法与LinearRegressionSGD配合使用

我试图弄清楚为什么LinearRegressionWithSGD不适用于Spark的ParamGridBuilder。从火花文档： lr = LinearRegression(maxIter=10) paramGrid = ParamGridBuilder()\ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.fitIntercept, [F