在多个CSV文件

如何计算行我有一个像下面在多个CSV文件

文件1

A B 
1 2 
3 4

文件2

A B 
1 2

文件3

我想算csv文件所有csv文件中的行都是

我试图

f=pd.read_csv(file1)

f.shape

，但是当我有很多的CSV文件的，它需要太多的时间。

我希望得到这样的结果如下

 rows 
file1 2 
file2 1 
file3 3

我怎样才能得到这样的结果？

来源

2017-04-10 Heisenberg

您可以创建的所有文件的lengthdict然后Series米为DataFrame添加to_frame：

import glob 
import pandas as pd 

files = glob.glob('files/*.csv') 

d = {f: sum(1 for line in open(f)) for f in files} 

print (pd.Series(d)) 

print (pd.Series(d).rename('rows').rename_axis('filename').reset_index())

open不保证文件被正确关闭，那么另一种解决方案：

def file_len(fname): 
    with open(fname) as f: 
     for i, l in enumerate(f): 
      pass 
    return i + 1 

d = {f: file_len(f) for f in files}

来源

2017-04-10 10:38:16 jezrael

在列表理解中最好使用for循环而不是'open' :) – Roelant

@Claudio - 当然，我也删除它们。 – jezrael

试试这个，

它添加了每个条目fil Ë名称和节数行和列有适当的标签：

import os  
df = pd.DataFrame(columns=('file_name', 'rows')) 
for index,i in enumerate(os.listdir('.')): 
    df.loc[index] = [i,len(pd.read_csv(i).index)]

来源

2017-04-10 10:43:00

到目前为止提供的解决方案有非常大的CSV的工作时，是不是最快的。另外，在列表理解中使用open()并不保证文件被正确关闭，例如，当使用with时（见this question）。所以结合，与见解从this question速度：

from itertools import takewhile, repeat 

def rawincount(filename): 
    with open(filename, 'rb') as f: 
     bufgen = takewhile(lambda x: x, (f.raw.read(1024*1024) for _ in repeat(None))) 
     return sum(buf.count(b'\n') for buf in bufgen)

和运用由@jezrael提供的解决方案：

import glob 
import pandas as pd 

files = glob.glob('files/*.csv') 
d = {f: rawincount(f) for f in files} 
df = pd.Series(d).to_frame('rows')

来源

2017-04-10 11:10:30 Roelant

它有两个问题：＃1：它不返回文件中的行数（计数'\ n's不这样做）＃2：速度并不是问题。在我的测试中：4.7秒。对于问题中使用的方法，3.8秒。为你的功能和4.3秒。在枚举（f）：pass'中使用'for i，l时。无论如何，我很高兴你在这里提供这个。顺便说一下：'mapcount'方法（在你提供的链接中）提供2.7秒。在我的盒子（Python 3.6，Linux Mint 18.1） – Claudio

:)感谢您的检查。在Linux中，我会怀疑用'wc -l'调用子进程会不会更快。 – Roelant

为了完整起见，作为一种所有的摘要说了什么关于文件速度和适当的打开/关闭这里一个解决方案，快速工作，不需要太多花哨的代码，...限于* nix系统（？）（但我认为类似的技术也可以用于其他系统）。

下面的代码运行一点点快于rawincount()和计数也不以线的末端有一个“\ n”最后几行（问题rawincount()有）：

import glob, subprocess, pandas 
files = glob.glob('files/*.csv') 
d = {f: subprocess.getoutput("sed -n '$=' " + f) for f in files} 
print(pandas.Series(d))

附：在这里我运行了一些大型文本文件（39个文件总大小为3.7 GByte，Linux Mint 18.1，Python 3.6）。有趣的是这里所提出的wc -l *.csv方法的时机：

Results of TIMING functions for getting number of lines in a file: 
    ----------------------------------------------------------------- 
      getNoOfLinesInFileUsing_bash_wc : 1.04 !!! doesn't count last non empty line 
      getNoOfLinesInFileUsing_bash_grep : 1.59 
    getNoOfLinesInFileUsing_mmapWhileReadline : 2.75 
      getNoOfLinesInFileUsing_bash_sed : 3.42 
getNoOfLinesInFileUsing_bytearrayCountLF_B : 3.90 !!! doesn't count last non empty line 
      getNoOfLinesInFileUsing_enumerate : 4.37 
     getNoOfLinesInFileUsing_forLineInFile : 4.49 
    getNoOfLinesInFileUsing_sum1ForLineInFile : 4.82  
getNoOfLinesInFileUsing_bytearrayCountLF_A : 5.30 !!! doesn't count last non empty line 
    getNoOfLinesInFileUsing_lenListFileObj : 6.02 
      getNoOfLinesInFileUsing_bash_awk : 8.61

来源

2017-04-10 18:07:43 Claudio

在* nix系统，如果你能做到这一点的Python之外：

wc -l *.csv

应该做的伎俩。

来源

2017-04-10 20:05:41 efajardo

'subprocess.getoutput（“wc -l”+ fileName）.split（）[0]'大约比'sed -n'$ ='“'快三倍，但是......不会计算最后一行文件，如果最后一行不以LF结尾（换行）... – Claudio

你知道如何从文件中提取最后一个字符，也就是FAST，这样就可以从wc中获得正确的行数 - 如果最后一个字符不是LF，则加1;？ – Claudio

一行的POSIX定义是“零个或多个非零字符加上终止的字符的序列”。没有立即数想法如何有效地对待不以换行符终止的文件... – efajardo

在多个CSV文件

回答

相关问题