apache-spark

    0热度

    1回答

    使用Spark_sklearn执行嵌套交叉验证GridSearchCV作为内部cv和sklearn cross_validate/cross_val_score作为外部cv结果“看起来您试图从广播变量引用SparkContext ,行动或转型“的错误。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

    1热度

    1回答

    我是新来的scala和sbt的东西,所以我不知道为什么我得到的错误。 ,以下是我build.sbt name := "graphx-example" version := "1.0" scalaVersion := "2.11.8" libraryDependencies ++= Seq( "com.typesafe" % "config" % "1.3.1", "o

    0热度

    1回答

    尝试在UDF中逐个发送列的列表,但使用for循环但出现错误,即数据框未找到col_name。目前在列表list_col我们有两列,但它可以改变。所以我想写一个代码,它适用于列的每一个列表。在这段代码中,我一次连接一列的行,行的值是结构格式即列表中的列表。对于每一个空,我必须给空间。 list_col=['pcxreport','crosslinediscount'] def struct

    0热度

    2回答

    查找我做的火花项目和需要就如何解决的最佳方式如下问题: 我有一个数据帧(说MainDF),其中有上百万的记录。格式是这样的(name:String,value:Int)。下面的内容例如: Davi,130 Joel,20 Emma,500 我还有一个小文件,与4号线的记录,像这样(的className:字符串,minValue(最小值):诠释,包括maxValue:智力) 现在我需要创建通

    0热度

    1回答

    优化在基于Yarn的群集上部署的Spark Jobs的最佳方式是什么? 。 寻找基于配置而非代码级别的更改。我的问题是经典设计级别的问题,应该使用什么方法来优化Spark Streaming或Spark SQL上开发的作业。

    1热度

    1回答

    我不确定我想实现的是否可能。我所知道的是,我正从一个执行器访问单例对象,以确保它的构造器在每个执行器上只被调用一次。这种模式已经在我的代码库中被证明和按照预期用于类似的用例。 但是,我想知道的是,如果我可以在驱动程序初始化之后运送对象。在这种情况下, 访问ExecutorAccessedObject.y时,理想情况下它不会调用println,而是返回值。这是一个高度简化的版本,实际上,我想打电话给

    1热度

    1回答

    我有一个包含多个列的数据框。 >>> df.take(1) [Row(A=u'{dt:dt=string, content=Prod}', B=u'{dt:dt=string, content=Staging}')] 我想从df列A和B的值中去掉花括号'{'和'}'。我知道我们可以使用: df.withColumn('A',regexp_replace('A','//{','')) df.

    1热度

    1回答

    我已经安装了spark版本:spark-2.2.0-bin-hadoop2.7。 我使用Windows 10 OS 我的Java版本1.8.0_144 我已经把我的环境变量: SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

    -1热度

    1回答

    我是新的火花流,我不明白地图如何工作。我想从一个流排队一些问题后,我从一个构造函数,因此我写它传递的是: val data = inp.flatMap(_.split(",")) val points = data.map(_.toDouble) val queue: Queue[Point] = new Queue[Point] points.foreachRDD(rdd => { rd

    0热度

    1回答

    键我有我的csv文件4列和多行。 Date(MM/DD/YY) Arr_Dep Dom_Int Num_Fl 01/01/15 0:00 Arrival Domestic 357 03/01/15 0:00 Arrival International 269 06/01/15 0:00 Departure Domestic 82 08/01/15 0:00 Depar