2011-12-17 34 views
0
Name,USAF,NCDC,Date,HrMn,I,Type,Dir,Q,I,Spd,Q 

OXNARD,723927,93110,19590101,0000,4,SAO,270,1,N,3.1,1, 
OXNARD,723927,93110,19590101,0100,4,SAO,338,1,N,1.0,1, 
OXNARD,723927,93110,19590101,0200,4,SAO,068,1,N,1.0,1, 
OXNARD,723927,93110,19590101,0300,4,SAO,068,1,N,2.1,1, 
OXNARD,723927,93110,19590101,0400,4,SAO,315,1,N,1.0,1, 
OXNARD,723927,93110,19590101,0500,4,SAO,999,1,C,0.0,1, 
.... 

OXNARD,723927,93110,19590102,0000,4,SAO,225,1,N,2.1,1, 
OXNARD,723927,93110,19590102,0100,4,SAO,248,1,N,2.1,1, 
OXNARD,723927,93110,19590102,0200,4,SAO,999,1,C,0.0,1, 
OXNARD,723927,93110,19590102,0300,4,SAO,068,1,N,2.1,1, 

这里是在每行中的CSV文件存储每小时风速(SPD)的一个片段。我想要做的是每天在csv文件中选择所有小时风,并将它们存储在临时每日清单中,存储当天的每小时值(如果没有缺失值,则为24)。然后,我将输出当天的列表,为第二天创建新的空列表,在第二天定位每小时的速度,输出每日列表等等,直到文件结束。选择内部循环某些日期为.csv文件

我正在努力做一个好的方法来做到这一点。我想有一个想法是在第一行中读取,确定日期(YYYY-MM-DD),然后在第i + 1行中读取并查看该日期是否与日期i相匹配。如果他们匹配,那么我们在同一天。如果他们不这样做,那么我们将在第二天进入。但我甚至不知道如何阅读文件中的下一行...

任何建议来执行此方法或全新的(和更好的?!)方法是最受欢迎的。提前致谢!

obs_in = open(csv_file).readlines() 
for i in range(1,len(obs_in)):   
# Skip over the header lines 
if not str(obs_in[i]).startswith("Identification") and not str(obs_in[i]).startswith("Name"): 
    name,usaf,ncdc,date,hrmn,i,type,dir,q,i2,spd,q2,blank = obs_in[i].split(',') 
    current_dt = datetime.date(int(date[0:4]),int(date[4:6]),int(date[6:8])) 
    current_spd = spd 
    # Read in next line's date: is it in the same day? 
    # If in the same day, then append spd into tmp daily list 
    # If not, then start a new list for the next day 
+0

有一个列表和存储行,直到日期更改。当日期发生变化时,将列表中的内容转储到文件中,刷新列表,然后转到 – yosukesabai 2011-12-17 22:02:24

+0

,最后,是否希望有一大堆24行的文件,并且文件名变得像spd19590101.csv,spd19590102.csv等等? – yosukesabai 2011-12-17 22:20:18

+0

如何在日期更改时标记?我不知道如何阅读下一行,并提取该日期以查看它是否与上一行的日期不同。最终,我想每个日期(YYYYMMDD)24个值的列表,输出该列表,然后移动到第二天,有一个新的空列表,填充新的列表与下24个值,输出它... – N1B4 2011-12-17 22:38:27

回答

0

它可以是这样的。

def dump(buf, date): 
    """dumps buffered line into file 'spdYYYYMMDD.csv'""" 
    if len(buf) == 0: return 
    with open('spd%s.csv' % date, 'w') as f: 
     for line in buf: 
      f.write(line) 

obs_in = open(csv_file).readlines() 
# buf stores one day record 
buf = [] 
# date0 is meant for time stamp for the buffer 
date0 = None 
for i in range(1,len(obs_in)):   
    # Skip over the header lines 
    if not str(obs_in[i]).startswith("Identification") and \ 
     not str(obs_in[i]).startswith("Name"): 
     name,usaf,ncdc,date,hrmn,ii,type,dir,q,i2,spd,q2,blank = \ 
      obs_in[i].split(',') 
     current_dt = datetime.date(int(date[0:4]),int(date[4:6]),int(date[6:8])) 
     current_spd = spd 
     # see if the time stamp of current record is different. if it is different 
     # dump the buffer, and also set the time stamp of buffer 
     if date != date0: 
      dump(buf, date0) 
      buf = [] 
      date0 = date 
     # you change this. i am simply writing entire line 
     buf.append(obs_in[i]) 

# when you get out the buffer should be filled with the last day's record. 
# so flush that too. 
dump(buf, date0) 

我还发现,我必须使用ii,而不是i的数据归档“我”,你for循环计数器使用i

1

您可以利用数据文件的有序性,并使用csv.dictreader。然后,您可以非常简单地构建一个按日期组织的风速字典,您可以根据需要进行处理。请注意,csv阅读器会返回字符串,因此在组装列表时可能需要根据需要将其转换为其他类型。

import csv 
from collections import defaultdict 
bydate = defaultdict(list) 
rdr = csv.DictReader(open('winds.csv','rt')) 
for k in rdr: 
    bydate[k['Date']].append(float(k['Spd'])) 

print(bydate) 
defaultdict(<type 'list'>, {'19590101': [3.1000000000000001, 1.0, 1.0, 2.1000000000000001, 1.0, 0.0], '19590102': [2.1000000000000001, 2.1000000000000001, 0.0, 2.1000000000000001]}) 

可以很明显的改变参数的append调用一个元组,例如append((float(k['Spd']), datetime.datetime.strptime(k['Date']+k['HrMn'],'%Y%m%D%H%M))这样你还可以收集的时间。

如果文件有多余的空格,可以使用skipinitialspace参数:rdr = csv.DictReader(open('winds.csv','rt'), fieldnames=ff, skipinitialspace=True)。如果这仍然不起作用,你可以预先处理标题行:

bydate = defaultdict(list) 
with open('winds.csv', 'rt') as f: 
    fieldnames = [k.strip() for k in f.readline().split(', ')] 
    rdr = csv.DictReader(f, fieldnames=fieldnames, skipinitialspace=True) 
    for k in rdr: 
     bydate[k['Date']].append(k['Spd']) 
return bydate 

bydate就像一个普通的字典访问。要访问特定日期的数据,请执行bydate['19590101']。要获取已处理日期的列表,您可以执行bydate.keys()

如果要在读取文件时将它们转换为Python日期时间对象,可以导入datetime,然后用bydate[datetime.datetime.strptime(k['Date'], '%Y%m%d')].append(k['Spd'])替换赋值行。

+0

感谢您的建议,mtrw!后续问题:我在实际的csv文件中有一些尾随和前导空白(我在粘贴上面的代码片段时手动删除了它们),因此为了使上述脚本起作用,第6行需要是:bydate [k [ 'Date']]。append(k ['Spd'])。如何删除读入中的空格,以便我可以在第6行中使用'Date'和'Spd'? – N1B4 2011-12-18 03:40:38

+0

另外,你如何提取速度为19590101,例如? (我是DictReader的总新手) – N1B4 2011-12-18 03:46:15

+0

Skipinitialspace = True似乎只删除前导空格 - 是否有相应的命令来删除尾随和前导空格? – N1B4 2011-12-18 09:35:22

0

我知道这个问题是从几年前,但只是想指出,一个小bash脚本可以整齐地执行此任务。我复制你的例子到一个文件名为data.txt中,这是脚本:

#!/bin/bash 
date=19590101 
date_end=19590102 
while [[ $date -le $date_end ]] ; do 
    grep ",${date}," data.txt > file_${date}.txt 
    date=`date +%Y%m%d -d ${date}+1day` # NOTE: MAC-OSX date differs 
done 

请注意,这不会对MAC作为某种原因date命令执行不同的工作。如果文件中缺少日期,则grep命令会生成一个空文件 - 此链接显示避免此问题的方法: how to stop grep creating empty file if no results

相关问题