azure-data-lake

    1热度

    1回答

    当我在事件中心中采集100 KB数据文件时,当我使用流分析从事件中心读取数据时分析输出文件大小比输入大三倍文件。 请确认

    0热度

    1回答

    问:1 我们正在考虑将读/写并行化为ADLA表,并且想知道这种设计的含义是什么。 我认为读取没问题,但是应该将最佳做法同时写入同一个ADLA表。 问:2 假设我们有USQL脚本,它们在相同/不同的ADLA表中有多个行集和多个输出/插入。什么是USQL中的事务范围故事。如果任何输出/插入语句失败,那么它会导致所有以前的插入回滚或不回滚。如何处理事务范围 感谢 阿米特

    0热度

    1回答

    我想我datalake store中创建新的文件夹中创建文件夹,里面是在代码中没有错误但没有被反映在datalake store。 代码: using System; using System.Collections.Generic; using System.Text; using System.Threading.Tasks; using System.IO; using Syst

    0热度

    2回答

    很明显,有很好的文档证明,压缩zip文件的能力对Hadoop中作业的性能和并行化有很大影响。 但Azure基于Hadoop构建,并且在Microsoft文档中找不到任何可以找到此影响的地方。 这不是ADL的问题吗? 是,例如,Gfix大文件现在可接受的方法,或者我会遇到同样的问题无法平行我的工作,由于压缩编解码器的选择? 谢谢

    2热度

    1回答

    如何使用C#在Azure数据湖上创建空文件。在其中提到的线程Create File From Azure Data Lake Store .NET SDK使用FileSystemOperationsExtensions.Create,但如何使用它来创建一个空文件。

    1热度

    2回答

    我有一个很大的blob存储空间,其中包含许多日志文件,这些日志文件按照其级别进行组织:存储库,分支,内部版本号,构建步骤号。 这些是包含对象数组的JSON文件,每个对象都有一个timestamp和entry值。我已经实现了一个自定义提取器(扩展为IExtractor),它接受输入流并生成许多纯文本行。 初始负载 现在我试图加载所有的数据到ADL商店。我创建了一个查询,看起来类似于这样: @entr

    0热度

    1回答

    有没有办法递归计算Azure Data Lake Store实例上的所有项目? 当分配权限时,所有文件和文件夹都会循环......但知道您已经经历了多长时间的过程并不多。 了解总共有多少个文件会非常有帮助! 我能走到今天: $m = Get-AzureRmDataLakeStoreChildItem 'batadlspdnetpdtest01' -Path '/' | measure $m.Co

    0热度

    2回答

    我使用JsonOutputter将一些csv文件转换为Json。在csv文件中,我有一个字段包含像这样的Json(管道字符是分隔符): ... | {“type”:“Point”,“coordinates”:[18.7726,74.5091]} | ... 当它输出到JSON,结果是这样的: “位置”: “{\” 类型\ “:\” 点\ “\ ”坐标\“:18.7726,74.5091]}” 我想

    0热度

    2回答

    我有一个每天将文件导入Data lake store的软件包。这是不同的值(相同的列等)相同的文件。我的想法是将这些文件合并到Data Lake上的单个文件中,以获得月度报告。我想调查U-SQL,所以我的问题是: 这可能与U-SQL有关吗? 如果不可能有其他的选择吗?

    1热度

    1回答

    我遇到了以下问题。我想在以下时间安排三个U-SQL作业:每天02:00UTC,03:00UTC和04:00UTC。我知道默认情况下,管道中的工作是在UTC上午12:00执行的,因此我所有的工作都在同一时间运行,这不是我想要的。 我红色的documentation它写道我应该考虑偏移参数在数据集模板中。但是,当我尝试设置此发生以下错误:。 我不知道如何设置与U-SQL作业的12:00 AM运行时不同