etl

    10热度

    7回答

    将大量数据从CSV(300万行+)加载到数据库的最有效方法是什么? 的数据需要被格式化(例如名称列需要被分成第一名和姓等) 我需要做这在高效地即时间限制 我正在阅读,使用C#应用程序逐行读取,转换和加载数据?这是理想的,如果不是,我的选择是什么?我应该使用多线程吗?

    2热度

    2回答

    我有一个任务来导入/转换并提取包含文本数据以及嵌入式二进制数据的压缩二进制文件。数据内部是关系性数据,需要处理成定义的数据库结构。目前我有一个C#单线程应用程序,它基本上抓取目录中的所有文件(目前有13K个不同大小的文件),并通过插入数据库的行插入单个线程中提取数据。你可以想象这是一个非常缓慢的过程,不可接受。根据文件中的头文件记录,可以使用几种不同的解析例程。将所有数据提取到行级别的详细信息时,

    0热度

    1回答

    我们的州政府已经开放了它的运输时间表数据。数据是基于xml的TransXchange标准格式。 问题是数据文件很大。示例数据文件本身是300 MB。 好东西是大多数数据是多余的,我不需要它用于我的应用程序。我想知道我有什么选择只将数据插入/转换到SQL Server中? 谢谢。

    2热度

    2回答

    在MySql中实现一个ETL项目的最佳免费解决方案是什么? 我需要提取分析大量的数据,并将结果放在其他表中。 问候, 佩德罗

    1热度

    2回答

    我目前正在构建ETL系统以从事务性系统加载数据仓库。我的事实表的颗粒是交易级别。为了确保我不加载重复行,我在事实表上放置了一个主键,这是事务ID。 我遇到了一个交易被颠倒的问题 - 在交易数据库中,这是通过一个状态来完成的,我可以在这个状态下完成交易,或者回滚,这样我就可以加载一个仓库中的反转行。但是,反转行将具有相同的事务ID,因此我得到主键违规。 我已经通过否定主键解决了这个问题,因此事务ID

    2热度

    1回答

    我正在SQL Server 2008中使用一个大表(〜100.000.000行)。通常,我需要添加和删除~30.000.000行的批以及从这张桌子。目前,在将大批量加载到表格之前,我禁用索引,插入数据,然后重建索引。我已经衡量这是最快的方法。 由于最近,我正在考虑在此表上实施表分区来提高速度。我将按照我的批次分割桌子。 我的问题,是否可以禁用某个特定分区的索引,并在再次启用它之前将数据加载到该分区

    1热度

    1回答

    我正在使用Talend来填充数据仓库。我的工作是将客户数据写入维度表并将事务数据写入事实表。事实表上的代理键(p_key)是自动递增的。当我插入新客户时,我需要我的事实表来反映相关客户的ID。 正如我所提到的,我的p_key是auto auto_incrementing,所以我不能只为p_key插入任意值。 有关如何将行插入我的维度表并仍检索要在我的事实记录中引用的主键的想法? 更多信息: 如果传

    1热度

    3回答

    我正在寻找一些机制的反馈,用于将数据从MySQL社区服务器5.1.32与外部主机批量分发到通过VPN的内部SQL Server 05企业计算机。外部盒子在整个营业时间累积数据(每天大约100Mb),然后需要在一些BI工作之前通过WAN连接在国际间传输(质量尚未确定,但不会超快)到企业内部环境执行。这应该是每晚变更的方式。 我对以前在类似场景中成功使用过的ETL机制感兴趣。 SSIS似乎是一个潜在的

    2热度

    4回答

    总之,我有一个20,000,000行的csv文件,它具有不同的行长度。这是由于古老的数据记录器和专有格式。我们以如下格式获得最终结果作为csv文件。我的目标是将这个文件插入到postgres数据库中。我怎么能做到以下几点: 保持第一8列和我的最后2列,有一个一致的CSV文件 在第一个或最后一个位置,以csv文件甲醚添加一个新列。 1, 2, 3, 4, 5, 0,0,0,0,0,0,0,0,0,0

    0热度

    2回答

    对于SSIS和ETL过程而言,我还是很陌生,我想知道是否有任何循环通过DataFlowTask中的记录集并将每行(从行中派生参数)传递到Stored过程(ETL阶段的下一个步骤)。一旦我将行传入存储过程,我希望每次迭代的结果都写入表中。 有谁知道如何做到这一点? 谢谢。