apache-spark

    -1热度

    2回答

    我有一个数据框,其中包含4列。 数据帧样本 id1 id2 id3 id4 --------------- a1 a2 a3 a4 b1 b2 b3 b4 b1 b2 b3 b4 c1 c2 c3 c4 b2 c1 a3 a4 c1 d4 有一排2种类型的数据的任一的所有列具有数据或仅一列。 我想要在所有列上执行不同的功能,例如在

    4热度

    2回答

    我有Apache Cassandra在Google Cloud中的4个虚拟机上工作。我认为它太昂贵了,并且想要将所有数据导出到BigQuery。卡桑德拉大约有2TB(60毫米排)。任何建议我怎么能做到这一点? 在此先感谢。

    0热度

    3回答

    我正在使用spark 1.6并尝试获取并投射数据帧行值。 这里是我的问题: 我在我的数据帧一排谁拥有这种结构: ​​ 我需要涂用[字符串列表]在WrappedArray,所以我尽量将其丢与此代码: val RDD= DF.map( f => { if(f.getAs("ListOfRficAction")!=null){ var listActions = f.

    0热度

    2回答

    在一些星火代码得到HiveContext,我已经看到了程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

    1热度

    1回答

    我们正在开始使用spark和parquet文件在hadoop集群中收集数据......但是我们很难保证拼花图案模式将来不会发生变化。我们试图找到阅读检察院,即使架构改变的最佳途径...... 我们要实现的规则是,最新的实木复合地板的文件将成为我们的参考... 我们做了不同的测试,包括: spark.read.parquet( “测试”)过滤器( “年2017年=和月= 10和天> = 15”) s

    0热度

    1回答

    我正在使用火花和纱线作为我的资源经理。我试着找到一种方法来收集运行后分配给作业的资源。资源管理器仅报告当前使用情况,因此在完成后将其清零。 如果在事实之后我不能得到它们,有什么方法让Spark工作在最后输出/存储时积累统计信息?

    1热度

    1回答

    我在Spark中实现了k-means算法。当我运行下面的代码时,出现酸洗错误(如下所示)。如果我修改它并将所有内容放在循环之外,它将正确计算质心。 sc = SparkContext(appName="Document Similarity") lines = sc.wholeTextFiles(sys.argv[1]) articles = lines.flatMap(lambda x:

    1热度

    1回答

    我在Java中使用的火花(V1.6.1)KRYO序列化和序列化的同时具有收藏在该领域的一类,它引发以下错误 - Caused by: java.lang.UnsupportedOperationException at java.util.Collections$UnmodifiableCollection.add(Collections.java:1055) at com

    2热度

    1回答

    我有一个SQL表table其中一列arr是一个整数数组。如何将表格筛选到arr下的数组包含整数值的行? (例如,如果我搜索1,那么应该包含数组[1,2,3]和[1,4],但[3,4]不应该)。 我在Databricks上使用Spark并且无法访问ANY或MEMBER OF函数。

    1热度

    2回答

    我使用mllib创建了一个使用Apache Spark的ML管道。 评估结果是一个DataFrame,其中有一列“probability”,它是概率的mllib向量(​​类似于scikit-learn中的predict_proba)。 val rfPredictions = rfModels.bestModel.transform(testing) val precision = evaluat