2
是否有任何工具或实用程序来检查HDFS文件是textfile
还是像avro
,ORC
等二进制文件?如何检查HDFS文件是否包含二进制数据?
我无法回复文件扩展名。我不想知道确切的类型。我只需要知道,如果数据是可读的或不。
是否有任何工具或实用程序来检查HDFS文件是textfile
还是像avro
,ORC
等二进制文件?如何检查HDFS文件是否包含二进制数据?
我无法回复文件扩展名。我不想知道确切的类型。我只需要知道,如果数据是可读的或不。
让我们bash
它
hdfs dfs -cat /file/on/hdfs | head -15 > tmp ; file -i tmp ; rm tmp
对于喜欢不可读文件parquet
等你会得到这样的:
tmp: application/octet-stream; charset=binary
@devツ'TMP:文本平原; charset = ascii'我刚刚得到这个TXT文件。不是那么重要,而是你在哪个版本上? – philantrovert
其工作正常,具有文本数据,或制表符作为分隔符。但是我的文本数据由** CTRL^A **(_default hive delimiter_)分隔。它返回'tmp:application/octet-stream;字符集=二进制“在这种情况下。 –
从技术上讲,这是一个不可打印的字符。 – philantrovert