2017-05-15 156 views
0

我已经从SAP应用程序下载了几个销售数据集。 SAP已自动将数据转换为.XLS文件。每当我打开使用Pandas库我收到以下错误是:python:转换损坏的xls文件

XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '\xff\xfe\r\x00\n\x00\r\x00' 

当我打开使用msexcel的是.xls文件显示一个弹出说,file is corrupt or unsupported extension do you want to continue当我点击“是”它显示了正确的数据。当我使用msexcel将文件再次保存为.xls时,我可以使用Pandas

所以,我试图使用os.rename()重命名文件,但它的工作。我试图打开该文件并删除\xff\xfe\r\x00\n\x00\r\x00,但后来它也努力工作。

解决方案是打开MSEXCEL并手动将文件另存为.xls,有没有什么办法可以自动执行此操作。请帮助。

+0

我检查了这个问题,我的问题是关于将其转换为另一种格式。 – Jeril

+0

@downshift否在MS Excel中未打开该文件。 – Jeril

+0

我只想做一些类似于MS Excel'save-as'的东西,但不是手动的。有什么办法吗? – Jeril

回答

0

最后,我将损坏的.xls转换为正确的.xls文件。以下是代码:

# Changing the data types of all strings in the module at once 
from __future__ import unicode_literals 
# Used to save the file as excel workbook 
# Need to install this library 
from xlwt import Workbook 
# Used to open to corrupt excel file 
import io 

filename = r'SALEJAN17.xls' 
# Opening the file using 'utf-16' encoding 
file1 = io.open(filename, "r", encoding="utf-16") 
data = file1.readlines() 

# Creating a workbook object 
xldoc = Workbook() 
# Adding a sheet to the workbook object 
sheet = xldoc.add_sheet("Sheet1", cell_overwrite_ok=True) 
# Iterating and saving the data to sheet 
for i, row in enumerate(data): 
    # Two things are done here 
    # Removeing the '\n' which comes while reading the file using io.open 
    # Getting the values after splitting using '\t' 
    for j, val in enumerate(row.replace('\n', '').split('\t')): 
     sheet.write(i, j, val) 

# Saving the file as an excel file 
xldoc.save('myexcel.xls') 

import pandas as pd 
df = pd.ExcelFile('myexcel.xls').parse('Sheet1') 

没有错误。