2015-11-09 35 views
0

我已经给出了一些压缩文件,但是解压缩的文件是30GB +,并且已经在Windows中压缩。我正在尝试创建一个使用EC2实例来解压缩这些内容的系统,但我一直保持内存不足(错误IOError: [Errno 28] No space left on device)。我的解压缩脚本如下:解压缩非常大的文件时出现问题

import boto3 
from boto3.s3.transfer import S3Transfer 
from zipfile import ZipFile as zip 
import ec2metadata 
import re 

s3 = boto3.client('s3') 
transfer = S3Transfer(s3) 


def get_info(): 
    userdata = re.findall(r"\=(.*?) ", ec2metadata.get('user-data')) 
    global dump_bucket 
    dump_bucket = userdata[0] 
    global bucket 
    bucket = userdata[1] 
    global key 
    key = userdata[2] 
    return dump_bucket, bucket, key 

def unzipper(origin_bucket, origin_file, dest_bucket): 
    s3.download_file(bucket, key, '/tmp/file.zip') 

    zfile = zip('/tmp/file.zip') 

    namelist = zfile.namelist() 

    for filename in namelist: 
     data = zfile.read(filename) 
     f = open('/tmp/' + str(filename), 'wb') 
     f.write(data) 
     f.close() 

    transfer.upload_file('/tmp/' + str(filename), dump_bucket, namelist[0]) 

def main(): 
    get_info() 
    unzipper(dump_bucket, bucket, key) 

main() 

是否有更好的方法来解压文件?我尝试了流式传输,但由于最初被压缩的方式,这种方式不太可能。

+4

你看看这里的答案http://stackoverflow.com/a/339506/69893? 此外,'IOError:设备上没有剩余空间'通常意味着您已经耗尽了您的磁盘空间。 “MemoryError”意味着你已经耗尽系统内存。 –

+0

除了这个错误之外,看起来你只是从zip文件中的项目中读取字节而不进行解压缩。 – erandac

回答

0

我能通过增加可用内存来解决这个问题,部分问题也来自编码。所以不得不改变默认编码为拉丁-1