我有以下问题:我有一个熊猫数据框,其中缺少的值由字符串na
标记。我想在它上面运行一个Imputer,用列中的平均值替换缺失的值。按照sklearn文件,该参数missing_values
要帮我这个:Python - SkLearn Imputer用法
missing_values : integer or “NaN”, optional (default=”NaN”) The placeholder for the missing values. All occurrences of missing_values will be imputed. For missing values encoded as np.nan, use the string value “NaN”.
在我的理解,这意味着,如果我写
df = pd.read_csv(filename)
imp = Imputer(missing_values='na')
imp.fit_transform(df)
这将意味着imputer在替换什么数据帧与na
值和列的平均值。但是,我得到一个错误:
ValueError: could not convert string to float: na
我在误解什么?这不是如何工作的印象?那么我怎样才能用字符串替换它的意思呢?我应该使用lambda吗?
谢谢!