2016-11-28 33 views
0

我使用hdfs中的sqoop获取了数据,但是我的数据在单列中包含逗号','。当我在火花中使用相同的数据时,它将每个逗号作为分隔符。我能做些什么来改变这些逗号?在火花中使用数据时遇到问题?

假设如果你有xyz列里面我有a,b,c在第一行和cd在第二行然后我可以做些什么来避免这些逗号?

+0

你能解释一下你用的是什么文件格式?假设你正在使用csv,那么其中一个选项是sep。如果您还提供代码,我可以尝试帮助 –

+0

我没有使用csv文件。该文件在我的数据库中。你在说什么代码 – Rani

+0

你如何将文件读入火花?你能提供代码吗? –

回答

0

以文本格式导入数据时,默认字段分隔符为逗号(,)。由于您的数据包含逗号,请更改字段分隔符。

在您的sqoop导入命令中使用--fields-terminated-by <char>

0

您可能会发现这些命令非常有用: --hive_drop-import-delims--hive-delims-replacement

More info here