2015-06-02 101 views
4

读取CL中csv文件的最快方法是: 1)第一行中的所有字段都进入一个名为列名称的数组中 2)第一个字段以下所有行中的每一行进入另一个 数组,称为行名称 3)所有其他字段进入另一个数组,称为值 ?Common Lisp中的快速CSV读取

我的文件中有如下形式,只是多了很多列和行:

"";"ES1 Index";"VG1 Index";"TY1 Comdty";"RX1 Comdty";"GC1 Comdty" 
"1999-01-04";1391.12;3034.53;66.515625;86.2;441.39 
"1999-01-05";1404.86;3072.41;66.3125;86.17;440.63 
"1999-01-06";1435.12;3156.59;66.4375;86.32;441.7 
"1999-01-07";1432.32;3106.08;66.25;86.22;447.67 

而且我想结果是:

#("1999-01-04" "1999-01-05" "1999-01-06" "1999-01-07") 
#("" "ES1 Index" "VG1 Index" "TY1 Comdty" "RX1 Comdty" "GC1 Comdty") 
#(1391.12 3034.53 66.515625 86.2 441.39 1404.86 3072.41 66.3125 86.17 440.63 
    1435.12 3156.59 66.4375 86.32 441.7 1432.32 3106.08 66.25 86.22 447.67) 

你知道一些CL库那这样做了吗? 是否有任何关于I/O性能的普遍问题,或许是编译器特有的,我应该知道?

这里是这样,我现在这样做:

(with-open-file (stream "my-file.csv" :direction :input) 
    (let* ((header (read-line stream nil)) 
      (columns-list (mapcar #'read-from-string 
           (cl-ppcre:split ";" header))) 
      (number-of-columns (length columns-list)) 
      (column-names (make-array number-of-columns 
            :initial-contents columns-list)) 
      (rownames (make-array 1 :adjustable t :fill-pointer 0)) 
      (values (make-array 1 :adjustable t :fill-pointer 0))) 
(set-syntax-from-char #\; #\) 
(loop 
    :for reader = (read stream nil stream) 
    :until (eq reader stream) 
    :do (progn (vector-push-extend reader row-names) 
      (loop 
       :for count :from 2 :upto number-of-columns 
       :do (vector-push-extend (read stream nil) 
            values))) 
    :finally (return (values row-names 
         column-names 
         values))))) 

注:我不会用设置语法从炭在实际的代码,我使用它只是为了这个例子的目的。

+1

其他答案给你最快的便携方式。最快的不可移植的方式是尽量减少复制(最慢的部分)。复制是在分割字符串时发生的(例如,基于引号或在读线中的新行分割)。如果您的实现可以被确信实现并支持某种C FFI,它允许您在某个只存储指针和长度的cl对象中引用c样式数组,那么您可以将csv文件进行mmap映射并解析它ram,通过指向内存中的文件来建立你的字符串。这不需要复制,但不会允许转义引号。 –

回答

1

我怀疑I/O是这里最慢的部分。如果您使用READ-SEQUENCE而不是重复呼叫READ-LINE,则可能会获得更快的I/O。所以,你的代码可能是这个样子:

(with-open-file (s "my-file.csv") 
    (let* ((len (file-length s)) 
     (data (make-array len))) 
    (read-sequence data s) 
    data)) 

然后由新行分割data并添加您的逻辑。

无论是否有帮助,它都有助于您剖析代码,例如,与:sb-sprof,看看大部分时间都花在哪里。

1

要阅读csv文件,我发现非常有用和快速的cl-csv包(https://github.com/AccelerationNet/cl-csv)。例如,为了解决您的问题,下面的代码可用于:

(let ((data (cl-csv:read-csv #P"my-file.csv" :separator #\;))) 
    (values (apply #'vector (first data)) 
      (apply #'vector (rest (mapcar #'first data))) 
      (apply #'vector 
      (mapcar #'read-from-string (loop :for row :in (rest data) 
               :append (rest row)))))) 

cl-csv:read-csv返回一个列表contaning,对于每一行,这是单元格的内容字符串列表。

+0

感谢您的输入。我试过了。不幸的是,它需要我写代码的1.5倍。我在这里寻找表演。 –

+0

你使用什么CL实现? – Renzo

+0

我正在使用SBCL,但我也打算尝试其他实现。这实际上与我在帖子中提到的问题有关:I/O性能可能存在一些常见问题,或许是编译器特定的问题,我应该知道这些问题? –