sklearn-pandas

    0热度

    1回答

    我正在完成一项任务,我们在scikit-learn中使用OneHotEncoder将所有类别打印出来。下面是数据的样品,我用于转化它的代码: grade sub_grade short_emp emp_length_num home_ownership term 0 B B2 0 11 RENT 36 months 1 C C4 1 1 RENT 6

    4热度

    1回答

    我在尝试oneHot对我的Pandas数据框的分类变量进行编码,其中包括分类变量和连续变量。我意识到这可以通过使用熊猫.get_dummies()函数轻松完成,但我需要使用管道,以便稍后可以生成PMML文件。 这是创建映射器的代码。我想编码的分类变量存储在名为“傻瓜”的列表中。 from sklearn_pandas import DataFrameMapper from sklearn.pre

    0热度

    1回答

    假设日志损耗方程为: logLoss=−(1/N)*∑_{i=1}^N (yi(log(pi))+(1−yi)log(1−pi)) 其中N是样本的数目,yi...yiN是因变量的实际值,并且pi...piN是从逻辑回归预测的可能性 如何我正在看: if yi = 0 then the first part yi(logpi) = 0 或者,如果yi = 1然后第二部分(1−yi)log(1−pi)

    2热度

    3回答

    我想读取类型为map<string, int>的cassandra列族中的数据并希望将其转换为Pandas数据框。我进一步想用Python在Python中训练模型,如虹膜种类分类中提到的here。 如果我会用csv来训练模型。然后,它会是这个样子的: label, f1, f2, f3, f4, f5 0 , 11 , 1, 6 , 1, 2 1 , 5, 5, 1 , 2,

    0热度

    1回答

    我使用递归特征消除和交叉验证(rfecv)为了找到我有的几个特征(m = 154)的最佳准确性分数。 rfecv = RFECV(estimator=logreg, step=1, cv=StratifiedKFold(2), scoring='accuracy') rfecv.fit(X, y) 的排名(rfecv.ranking_)和相关的得分(rfecv.grid_sc

    3热度

    1回答

    嗨,我使用熊猫和显示表。 我有一个函数来应用交替行颜色来清晰地阅读。 使用下面的代码我发送邮件表,它的工作原理。 我的代码: count = 1000 df = pandas.DataFrame.from_dict(result) df["Total"] = df.T.sum() html = """<!DOCTYPE html> <html> <body> <h3>

    -1热度

    2回答

    我试图通过pip安装sklearn模块,但下面是我遇到的错误。

    1热度

    1回答

    我有一个csv数据集,我试图使用sklearn。目标是预测未来的网络流量。但是,我的数据集在没有访问者的日子里包含零,我想保留这个值。还有更多的日子里有零访客,然后有访客(这是一个小小的网站)。下面就来看看在数据 Col1中的日期: 11年10月1日 11年10月2日 11年10月3日 等.... col2的是访问者#: 等.... sklearn似乎解释零个值作为NaN值这是可以理解的。我如何在

    1热度

    1回答

    由于_grid_scores_方法已被cv_results_取代,我想知道如何使用参数和分数输出元组? cv_results_为分数提供了一个数据框,但元组输出更容易处理。 请指导我在这个新版本的scikit中处理参数和分数值。我计划为不同范围的参数运行GridSearchCV,我将后者整合到单个字典中。

    1热度

    1回答

    我计算了我的多元线性回归方程,我想查看调整后的R平方。我知道分数函数允许我看到r-squared,但它没有被调整。 import pandas as pd #import the pandas module import numpy as np df = pd.read_csv ('/Users/jeangelj/Documents/training/linexdata.csv', sep='