2017-08-03 96 views
0

我有一个中等大小的制表符分隔的.txt文件 - 大约40k行。当我导入到Openrefine时,第406行将所有其余内容(整个40,000行)放入该行第13列中的单个单元格中。将制表符分隔的文本文件导入到openrefine

我试过grep-serching两个不同的文本编辑器(Sublime Text 2 & TextWrangler)中的看不见的东西,看起来应该是这样。

我用Excel转换为CSV也试过了,实际工作,但是:

  1. 这是一个不雅的解决方法,
  2. 它具有变音符号麻烦,
  3. 我不吨要花更多的时间在Excel中解决它

我试着除了在任何一方的10行违规行,并引发同样的问题。

Here are those 21 lines,直接从TextWrangler复制。 (我可以从终端输出复制,如果这有什么区别)。

任何帮助,一如既往,非常感谢!

回答

0

我明白了。问题与引号有关。尝试通过取消选中“引号用于包含包含列分隔符的单元格”来导入文件。

enter image description here

在我的截图空列是由于您的文件有时有两个或三个选项卡作为分隔符。你可以导入后使用很容易地删除它们“重新排序/删除列”

enter image description here

+0

你是对的 - 当我从文件复制粘贴到帖子窗口时,标签被翻译成空格。 这里是一个链接到该文件:http://mvabl.com/mvabl.com/public/data_excerpt.txt 再次,这是“违规”行+ 10线在任何一方。所以坏行是#11 我明白@ Ettore的建议,但他们并不实际适用。 – SteveS

+0

@SteveS对不起,当我点击链接时,我收到一个“URL Not Find”。 –

+0

对不起。我有mvabl.com两次。这应该工作: http://mvabl.com/public/data_excerpt.txt – SteveS

0

解决它!好吧,有点。事实证明,第13列的文本在文本本身(换句话说,而不是必须与分隔符完全相关)中包含双引号

现在,我只是要删除整个文件中的那些引用,这是行得通的 - 我测试了它。 **我宁愿弄清楚如何将引号保留为文本的一部分。试图用/逃避他们,但那并不奏效。

感谢SO社区。尤其是@Ettore。

相关问题