0

我是蔚蓝色斑点的新手,并且有此问题。 我有一个blob块10 + csv格式相同的文件(相同的标题等)。我想将它们结合在一起,以便Azure机器学习工作空间将它们作为一个数据集读取。它们是blob块中的唯一文件,它们都是csv的。如何从不同的blob块加入csv以供Azure机器学习读取?

如何在blob中将这些大型csv文件连接在一起,而不必在动态增长时为每个文件都设置ML“连接”?

+0

你有10多个独立的块blob,或一个块blob?如果他们都在一个团队(似乎是这样),他们怎么还没有合并? –

+0

他们在同一个blob中,我通过C#将多个csvs上传到同一个blob块。但在未来,我们会将多个CSV转储到同一个块,以便随时重新训练模型。我想知道如何动态访问所有blob的块并且一次使用所有的数据,而不必为每个blob块创建一个读取器。 – Kat

回答

1

如果您始终将数据添加到blob的末尾,则应考虑使用append blob。这些blob专门针对此用例进行了优化,并且更易于用于仅追加场景。

这听起来像你从你的说明,你想获得块blob中的所有数据。一个简单的'获取'blob应该得到完整的blob和所有的CSV - 在C#lib中有各种下载选项,因为这是你所说的你使用的。对于块blob下载,块不重要,数据被视为一件大事。块更多是上传的单位。