apache-spark-mllib

    1热度

    1回答

    python-wise中实现predict_proba(X)等价的Scikit-Learn我更喜欢.predict_proba(X)而不是.decision_function(X),因为它更容易解释结果。就我所见,后者的功能已经在Spark中实现了(好吧,在版本0.9.2中,例如我必须自己计算点积,否则我得到0或1),但前者尚未实现(还!)。我该怎么做\如何在Spark中实现那个呢?这里需要的输入

    2热度

    1回答

    使用org.apache.spark.mllib.util.MLUtils包中的以下方法,将LIBSVM格式的二进制标记数据加载到RDD [LabeledPoint]中,具有自动确定的功能数量和分区的默认数量。 def loadLibSVMFile(sc: SparkContext, path: String): RDD[LabeledPoint] 我的问题是用多类标签加载数据? 在多类标签数

    1热度

    1回答

    我想在阿帕奇星火使用areaUnderROC从MLlib。我目前正在运行Spark 1.1.0,此功能在pyspark中不可用,但在scala中可用。 是否有一个功能跟踪器跟踪将Scala apis移植到Python apis的进度? 我试图在官方jira搜索,但我找不到任何相应的票号。

    0热度

    1回答

    我与Scala(2.10.4版本)和Spark一起工作 - 我已转移到Spark 1.0.1。版本,并注意到我的一个脚本现在无法正常工作。它以如下方式使用MLlib库中的k-means方法。 假设我有一个名为clusters一个KMeansModel对象: scala> clusters.toString res8: String = [email protected] 这里是我的问题的方法

    2热度

    2回答

    我是机器学习的新手。我正在尝试使用MLlib的决策树。 有人可以帮助我如何为多类别分类准备mllib决策树的输入文件。 我的CSV文件的拥有 标签的格式,文字 label_1, text of label 1 label_2, text of label 2 label_3, text of label 3 通过mllib输入所需的格式是LIBSVM,或labeledpoint。 file

    1热度

    1回答

    我想用Apache Spark的MLlib建立一个分类系统。我有入围的朴素贝叶斯算法来做到这一点,并将使用Java 8来支持Lambda表达式。在lambda表达式方面,我是一个新手,因此在Java中实现它们时遇到困难。 我指的是下面的链接,其具有用Scala编写的样本,但我有一个很难将其转换成Java 8 http://chimpler.wordpress.com/2014/06/11/clas