我是一位与大数据一起工作的新手,因此希望下面的问题有一个简单的解决方案。任何帮助将不胜感激。从大型文本文件中提取列
我一直在用EmEditor修改一个~2GB的文本文件,它是315,000x1706。每列的标题随机包含1或2个。这里是什么,我有一个小图片:
1 2 2 1 1 1 2 1 1 1 1 1 1 2 2 2
AA TT TA CT TT GA TA CT AA CT TT GA CT TT TA TA
AA TT TA CT TT GA TA CT AA CT TT GA CT TT TA TA
AA TT TA CT TT GA TA CT AA CT TT GA CT TT TA TA
(File) (File 1) (File 2)
我需要打入两个文件,一个只用“1”列和另一只“2”列此。
有关如何做到这一点的任何建议?该文件太大而无法在Excel中打开。这些数据最终将在Matlab中结束。这可以用Matlab来完成吗?
谢谢
你能够达到你想要的小文本文件吗?使用文本文件,您基本上必须逐行阅读并处理它。 – Daniel
即使使用较小的文件,我也不知道从哪里开始。 – dps2501
我假设沿着'AA TT TA CT TT GA TA CT'的线有多行?如果您编辑问题以提供文件内容的更完整的小例子,这将会很有帮助。 – horchler