UnicodeDecodeError错误：“ASCII”编解码器不能在位置19进行解码字节0xc3：在范围序数不（128）

再次发布作为以前的帖子在它有API令牌。我从一个网站刮的数据：这里是代码：UnicodeDecodeError错误：“ASCII”编解码器不能在位置19进行解码字节0xc3：在范围序数不（128）

reload(sys) 
sys.setdefaultencoding('utf-8-sig') 

def __unicode__(self): 
    return unicode(self.some_field) or u'' 
def daterange(start_date, end_date): 
    for n in range(int ((end_date - start_date).days)): 
     yield start_date + timedelta(n+1) 
#def is_ascii(s): 
    #return all(ord(c) < 128 for c in s) 
date='' 
min_date='' 
max_date='' 
if sys.argv[1] == 'today': 
    min_date = datetime.today() - timedelta(1) 
    max_date = datetime.today() 
elif sys.argv[1] == 'yesterday': 
    min_date = datetime.today() - timedelta(2) 
    max_date = datetime.today() - timedelta(1) 
else: 
    min_date = datetime.strptime(sys.argv[1], "%Y-%m-%d") - timedelta(1) 
    max_date = datetime.strptime(sys.argv[2], "%Y-%m-%d") 
siteIDs = [37] 
for id in siteIDs: 
    for date in daterange(min_date, max_date): 
     response_data = {} 
     url = 'http://survey.modul.ac.at/piwikAnalytics/?module=API&method=Live.getLastVisitsDetails&idSite=' + str(id) + '&format=csv&token_auth=' + token_auth + '&period=day&date=' + date.strftime('%Y-%m-%d') + '&filter_limit=2000' 
     try: 
      response=requests.get(url,timeout=100) 
      response_url=response.url 
      response_data=urllib.urlopen(url) 

     except (requests.exceptions.Timeout,requests.exceptions.RequestException,requests.exceptions.HTTPError,requests.exceptions.ConnectionError,socket.error) as e : 
      response_data="error" 
     with codecs.open('raw_csv/piwik_'+ str(id) + '_' + date.strftime('%Y-%m-%d')+ '.csv', 'wb',encoding='utf-8-sig') as fp: 
       fp.write(response.text)

在输出列“idSite”被显示为“我»¿ï»¿idSite”。我试图通过下面的代码将其删除：

import pandas as pd 

df = pd.read_csv("piwik_37_2016-07-08.csv", dtype = "unicode", encoding="utf-8-sig") 
df.to_csv("abc.csv")

但我正在逐渐上述的Unicode错误

来源

2016-07-10 Diganta Bharali

的[有一种简单的方法，使在python unicode的工作？（可能的复制http://stackoverflow.com/questions/12556839/is-there-an-easy-方式对做-UNICO去工作在蟒蛇） –

当您执行读取操作得到的Unicode值。在写入csv文件之前，需要将这些Unicode字符转换为字节。所以，你必须这样做：'df.to_csv（“abc.csv”，encoding ='utf-8'）' –

一种强制方法从字符串中删除所有非ASCII字符是：

import re 
# substitute sequence of non-ASCII characters with single space 
str = re.sub(r'[^\x00-\x7F]+',' ', str)

希望帮助你的情况

来源

2016-07-10 01:20:07 Kevin

UnicodeDecodeError错误：“ASCII”编解码器不能在位置19进行解码字节0xc3：在范围序数不（128）

回答

相关问题