2013-07-18 69 views
3

我有一个函数读取一个csv文件并返回操作(LINQ)结果。我需要打开每个文件两次,因为我需要根据不同的用途对数据进行非常不同的分割,并且使用代码项目中的“快速CSV阅读器”,我使用它的速度更快,可以两次读取,并且每次直接使用LINQ进行操作比将其读入DataTable中。与LINQ并行csv处理

单独的每个函数调用(imppow或impfuel)都需要超过2秒。

简单的for循环六个电话(需要13secs):

string[] pathstring = { @"C:\Temp\Hourly1.txt", @"C:\Temp\Hourly2.txt", @"C:\Temp\Hourly3.txt" }; 
string[] pathgran = { "M", "Q", "Y" }; 
for (int i=0; i < 3; i++) 
{ 
    var respow = imppow(pathstring[i], pathgran[i]); 
    Console.WriteLine(respow[0]); 

    var resfuel = impfuel(pathstring[i], pathgran[i]); 
    Console.WriteLine(resfuel[0]); 
} 

并行化这样刮胡子了3秒,但不多:

Parallel.For(0, 3, (i) => 
{ 
    var respow = imppow(pathstring[i], pathgran[i]); 
    Console.WriteLine(respow[0]); 

    var resfuel = impfuel(pathstring[i], pathgran[i]); 
    Console.WriteLine(resfuel[0]); 
}); 

至于说一个呼叫大约需要2秒。我可以通过使用多线程还是进一步降低runtim? 谢谢。

下面的功能之一:

static object[] impfuel(string filepath, string gran) 
{ 
    using (CsvReader csv = 
      new CsvReader(new StreamReader(filepath), true)) 
    { 
     csv.SupportsMultiline = false; 
     var results = csv.Select(r => new { yr = r[1], qr = r[3], mt = r[4], tar = r[7], mac = r[8], fuel = r[9], rg = r[10], rt = r[11], fp = r[22], fi = r[24] }) 
         .Where(a => a.rt == "F") 
         .GroupBy(a => new { a.rg, a.fuel, a.tar, a.mt }) 
         .Select(g => new { Rpg = g.Select(a => a.rg).First(), Fue = g.Select(a => a.fuel).First(), Tari = g.Select(a => a.tar).First(), Mon = g.Select(a => a.mt).First(), AverageA = g.Average(a => double.Parse(a.fp)), SumA = g.Sum(a => double.Parse(a.fi)) }) 
         .ToArray(); 
     return results; 
    } 
} 

static object[] imppow(string filepath, string gran) 
{ 
using (CsvReader csv = 
     new CsvReader(new StreamReader(filepath), true)) 
{ 
    csv.SupportsMultiline = false; 
    var results = csv.Select(r => new { yr = r[1], qr = r[3], mt = r[4], tar = r[7], mac = r[8], rg = r[10], rt = r[11], pp = r[17], pi = r[19] }) 
        .Where(a => a.rt == "M") 
        .GroupBy(a => new { a.rg, a.tar, a.mt }) 
        .Select(g => new { Rpg = g.Select(a => a.rg).First(), Tari = g.Select(a => a.tar).First(), Mon = g.Select(a => a.mt).First(), AverageA = g.Average(a => double.Parse(a.pp)), SumA = g.Sum(a => double.Parse(a.pi)) }) 
        .ToArray(); 
    return results; 
} 

}

+0

你可以将文件缓存在内存中并使用MemoryStreams吗?消除文件I/O可能会有所帮助。 –

+2

Parallel.For()使用多个线程(如有必要并且可用) – EkoostikMartin

+0

感谢Dan!你有链接或样本?从来没有使用记忆流 – nik

回答

2

你永远不知道这些文件的大小,它是一个几KB或者在我们谈话兆? 一次读取文件会限制IO速度慢。

我会在阅读文件时阅读文件,并将其放入两个不同的列表中。

string[] pathstring = { @"C:\Temp\Hourly1.txt", @"C:\Temp\Hourly2.txt", @"C:\Temp\Hourly3.txt" }; 
for (int i=0; i < 3; i++) 
{ 
    List<Content> powList = new List<Content>(); 
    List<Content> fuelList = new List<Content>(); 
    ReadFile(pathstring[i], ref powList, ref fuelList); 
    var respow = imppow(powList); 
    Console.WriteLine(respow[0]); 

    var resfuel = impfuel(fuelList); 
    Console.WriteLine(resfuel[0]); 
} 

void ReadFile(string filepath, ref List<Content> powList, ref List<Content> fuelList) 
{ 
    using (CsvReader csv = new CsvReader(new StreamReader(filepath), true)) 
    { 
     csv.SupportsMultiline = false; 
     foreach(Content content in csv.Select(r => new Content(){ yr = r[1], qr = r[3], mt = r[4], tar = r[7], mac = r[8], fuel = r[9], rg = r[10], rt = r[11], pp = r[17], pi = r[19], fp = r[22], fi = r[24] })) 
     { 
      if (content.rt == "F") 
       fuelList.Add(content); 
      else if (content.rt = "M") 
       powList.Add(content); 
     } 
    } 
} 

static object[] impfuel(List<Content> fuelList) 
{ 
    var results = fuelList.GroupBy(a => new { a.rg, a.fuel, a.tar, a.mt }) 
        .Select(g => new { Rpg = g.Select(a => a.rg).First(), Fue = g.Select(a => a.fuel).First(), Tari = g.Select(a => a.tar).First(), Mon = g.Select(a => a.mt).First(), AverageA = g.Average(a => double.Parse(a.fp)), SumA = g.Sum(a => double.Parse(a.fi)) }) 
        .ToArray(); 
    return results; 
} 

}

您可以imppow和内容类你的自我。

+0

thanks for答案。对不起,我应该提到:1个文件是60megs,我们正在说500,000行和26列。我会尝试你的回答,看看它的速度如何。 – nik

+0

如果你想使它成为多线程的,你可以使用ReadFile并行运行impfuel和imppow,例如。异步和等待(搜索SO如何做到这一点的例子。) – Casperah

+0

@casperah:谢谢!这工作,并把它下降了另一秒钟,所以我开始与12-13secs,我的阅读文件并行6次是8,你的方法将它存储到两个列表将其降低到7.我会尽量包括异步和等待现在看看是否会刮掉另一秒... – nik