spark-avro

    1热度

    1回答

    我有一个十进制列“TOT_AMT”定义为类型“字节”和逻辑类型“十进制”在我avro模式。 使用databricks火花阿夫罗,当我试图使用求和它抛出的总和函数的TOT_AMT柱从而在火花的数据帧之后的“功能和要求的数字类型不Binarytype”错误。 该柱在阿夫罗模式定义如下面, 名称= “TOT_AMT”, “类型”:[ “空”,{ “类型”: “字节”, “logicaltype”: “小

    0热度

    2回答

    我在S3中使用Spark 2使用Java API将一些遗留数据转换为parquet格式。 我有Avro模式(.avsc文件)和他们使用Avro编译器生成的Java类,我想用Parquet格式存储使用这些模式的数据。输入数据不是任何标准格式,但我有一个库,可以将每行从传统文件转换为Avro类。 是否可以将数据读取为JavaRDD<String>,将转换应用到使用库的Avro类,最后将其存储为实木复合

    1热度

    1回答

    我使用sqoop将avro文件格式导入选定列的表。使用avro-tools来日期显示为奇怪的格式(negetive)。我如何解码日期? {"first_name":{"string":"Mary"},"last_name": {"string":"Botman"},"birth_date":{"long":-345772800000}} 其中如MySQL查询击掌正确格式 mysql> sele

    1热度

    1回答

    我创建了Hive avro表,并试图从pyspark读取它。基本上试图对pyspark上的这个Hive avro表进行基本查询,以便进行一些分析。 from pyspark import SparkContext from pyspark.sql import HiveContext hive_context = HiveContext(sc) test = hive_context.ta

    0热度

    1回答

    我使用星火Mllib来为我的数据预测,然后将它们存储到HDFS中的Avro格式时: val dataPredictions = myModel.transform(myData) val output = dataPredictions.select("is", "probability", "prediction") output.write.format("com.databricks.s

    2热度

    1回答

    我们有一个与Avro的划分是这样的: table --a=01 --a=02 我们希望从单个分区保持分区列装载数据。 我发现this stackoverflow question和我申请建议片段: DataFrame df = hiveContext.read().format(format). option("basePath", "path/to/table/"). load("p

    3热度

    1回答

    我期待在Spark 1.6上使用DataFrames API构建Spark Streaming应用程序。在我陷入兔洞之前,我希望有人能够帮助我理解DataFrames如何处理具有不同模式的数据。 这个想法是消息将通过Avro模式流入卡夫卡。我们应该能够以向后兼容的方式发展架构,而无需重新启动流应用程序(应用程序逻辑仍然可以工作)。 使用模式注册表反编译消息的新版本以及使用KafkaUtils创建直

    0热度

    1回答

    我是AVRO的新手。我们已经开始使用AVRO模式来读取数据。 现在我们有一个用例,在阅读时需要截断数据。 假设我的Avro schcema是这样 { "name": "table", "namepsace": "csd", "type": "record", "fields": [ {"name": "CustId", "type":"strin

    0热度

    1回答

    我是hadoop和大数据技术的新手。我喜欢将镶木地板文件转换为avro文件并读取数据。我在几个论坛搜索,并建议使用AvroParquetReader。 AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file); GenericRecord nextRecord = reader.rea

    0热度

    1回答

    我们的项目同时具有scala和python代码,我们需要向kafka发送/使用avro编码的消息。 我使用python和scala发送avro编码消息给kafka。我在Scala代码制片其发送使用Twitter一一对应库的Avro编码的消息如下: val resourcesPath = getClass.getResource("/avro/url_info_schema.avsc") val