apache-spark-mllib

1热度

1回答

python-wise中实现predict_proba（X）等价的Scikit-Learn我更喜欢.predict_proba（X）而不是.decision_function（X），因为它更容易解释结果。就我所见，后者的功能已经在Spark中实现了（好吧，在版本0.9.2中，例如我必须自己计算点积，否则我得到0或1），但前者尚未实现（还！）。我该怎么做\如何在Spark中实现那个呢？这里需要的输入

2热度

1回答

如何将具有多个类的LibSVM文件转换为RDD [labelPoint]

使用org.apache.spark.mllib.util.MLUtils包中的以下方法，将LIBSVM格式的二进制标记数据加载到RDD [LabeledPoint]中，具有自动确定的功能数量和分区的默认数量。 def loadLibSVMFile(sc: SparkContext, path: String): RDD[LabeledPoint] 我的问题是用多类标签加载数据？在多类标签数

1热度

1回答

MLlib和pyspark功能

我想在阿帕奇星火使用areaUnderROC从MLlib。我目前正在运行Spark 1.1.0，此功能在pyspark中不可用，但在scala中可用。是否有一个功能跟踪器跟踪将Scala apis移植到Python apis的进度？我试图在官方jira搜索，但我找不到任何相应的票号。

0热度

1回答

为什么从Spark 1.0.1开始出现KMeansModel.predict错误？

我与Scala（2.10.4版本）和Spark一起工作 - 我已转移到Spark 1.0.1。版本，并注意到我的一个脚本现在无法正常工作。它以如下方式使用MLlib库中的k-means方法。假设我有一个名为clusters一个KMeansModel对象： scala> clusters.toString res8: String = [email protected] 这里是我的问题的方法

2热度

2回答

mllib的输入文件格式

我是机器学习的新手。我正在尝试使用MLlib的决策树。有人可以帮助我如何为多类别分类准备mllib决策树的输入文件。我的CSV文件的拥有标签的格式，文字 label_1, text of label 1 label_2, text of label 2 label_3, text of label 3 通过mllib输入所需的格式是LIBSVM，或labeledpoint。 file

1热度

1回答

Java中Spark MLlib的分类

我想用Apache Spark的MLlib建立一个分类系统。我有入围的朴素贝叶斯算法来做到这一点，并将使用Java 8来支持Lambda表达式。在lambda表达式方面，我是一个新手，因此在Java中实现它们时遇到困难。我指的是下面的链接，其具有用Scala编写的样本，但我有一个很难将其转换成Java 8 http://chimpler.wordpress.com/2014/06/11/clas