破碎的报价冒号分隔值我有一个冒号分隔的文件cik.coleft.c
,它看起来像这样:解析在bash
!J INC:0001438823:
#1 A LIFESAFER HOLDINGS, INC.:0001509607:
#1 ARIZONA DISCOUNT PROPERTIES LLC:0001457512:
#1 PAINTBALL CORP:0001433777:
$ LLC:0001427189:
& S MEDIA GROUP LLC:0001447162:
&TV COMMUNICATIONS INC.:0001479357:
'MKTG, INC.':0000886475:
11:11 CAPITAL CORP.:0001463262:
这是一个两列csv
其中分离逗号被替换用冒号。同时,单引号用逗号转义值,而不是冒号(分隔符)的值。
但是第一列包含冒号,这会破坏解析器。所以,当我尝试cik.coleft.c
转换成正常csv
...
curl -o cik.coleft.c 'https://www.sec.gov/edgar/NYU/cik.coleft.c'
in2csv --format 'csv' -d ':' -q "'" -e 'latin1' cik.coleft.c > cik.coleft.csv
...我得到四个多列。
我试着用sed
来读行,但没有成功。
如何将其转换为适当的两列表格?
你可以选择一个不会与'11:11'之类的东西冲突的分隔符吗? –
那么,唯一不正确的冒号是最后一行中的“11:11”? – Kaz
您或创建该文件的人 - 通过替换分隔符来打破格式,而无需重新分析每个字段的引用要求。在“X”分隔值文件中天真地改变分隔符会破坏信息,导致这种模糊性。 (我知道这对你没有帮助,但这是对未来的教训,如果别人破坏了这个文件,你可以合法地抱怨。) – rici