sklearn-pandas

    0热度

    1回答

    我有一个包含IMDB电影评级数据的csv文件。该文件有27个功能和1个目标变量。我已附上SampleData。数据集也可以从KaggleData下载。 我知道了,sklearn Python的包需要所有的数据在数字。那么我如何使用这些数据做回归分析呢? 现在我已经使用下面的代码,但它说“某些导演名称”不能转换为浮动。 import pandas as pd from sklearn.linear

    3热度

    1回答

    我有一个csv文件,其中有25列有些是数字的,有些是分类的,有些像演员,导演的名字。我想要在这些数据上使用回归模型。为了做到这一点,我必须使用scikit包中的LabelBinarizer将分类列字符串类型转换为数字值。 如何在具有多个分类数据的此数据框上使用LabelBinarize? 基本上我想二值化的标签并将其添加到数据帧。 在下面的代码中,我已经检索了我想要二进制化的列的列表,但无法弄清楚

    1热度

    1回答

    考虑以下两个选项介绍: #!/usr/bin/env python3 # -*- coding: utf-8 -*- #sklearn.__version__ 17.1 #python --version 3.5.2, Anaconda 4.1.1 (64-bit) #ipdb> TypeError: __init__() got an unexpected keyword argum

    1热度

    1回答

    我已经在将数据集分解为测试和训练集之后应用了列车集上的Logistic回归,但是我得到了以上错误。我试图解决它,当我试图打印我的响应向量y_train在控制台它打印整数值如0或1.但是,当我把它写入一个文件中,我发现这些值是像0.0和1.0的浮动数字。如果那是问题,我怎么能过来呢。 lenreg = LogisticRegression() print y_train[0:10] y_tra

    0热度

    3回答

    我想对监督学习准备数据。我有我的TFIDF数据,这些数据是从所谓的在我的数据帧列生成的“合并” vect = TfidfVectorizer(stop_words='english', use_idf=True, min_df=50, ngram_range=(1,2)) X = vect.fit_transform(merged['kws_name_desc']) print X.shape

    0热度

    1回答

    我很困惑fit()和partial_fit()方法SGDClassifier。文档对两者都说,“适合随机梯度下降的线性模型”。我知道的随机梯度下降是,它需要一个(或一小部分整体)训练示例来更新一次迭代中的模型参数。梯度下降在每次迭代中使用整个数据集。我想用逻辑回归来训练一个模型。我想实现正常的梯度下降和随机梯度下降,并比较它们所需的时间。如何做到这一点与SGDClassifier? fit()方法

    1热度

    1回答

    我试图在我编写的一个简单的熊猫数据帧上提取功能(tsfresh.extract_features)。每次运行和打印功能时,我都会将每个计算的功能都设为0或NaN。我已经尝试阅读相当多的文档,但似乎无法绕过它。 下面的代码: d = {'one':pd.Series(np.random.randn(10)), 'two':pd.Series(np.random.randn(10))} d

    0热度

    1回答

    我正在使用python中的KNN算法,并尝试用MinMaxScaler标准化我的数据帧,以在0到1之间的范围内转换数据。 但是,当我返回输出,我观察到一些列最小/最大输出超过1。我错误地使用它? 下面是我返回的最小值/最大值的一个片段: 代码中使用是: kdd_data_10percent = pandas.read_csv("data/kdd_10pc", header=None, names

    0热度

    2回答

    我看到很多功能的工程有get_dummies上的物体的特征步骤。例如,将包含“M”和“F”的性别列虚拟为两列,并将其标记为一次性表示。 为什么我们不直接在性别栏中将'M'和'F'设置为0和1? 虚拟方法是否对分类和回归模型中的机器学习模型都有积极影响? 如果是这样,为什么? 谢谢。

    1热度

    2回答

    我在功能工程中查看了Kaggle的fill null方法。有些玩家用另一个对象值填充NA。 例如,性别栏中有'男','女'和NA值。该方法用另一个对象值填充NA,例如'中间'。之后,它将没有null的性属性对待,熊猫不会找到null。 我想知道该方法对机器学习模型的性能或良好的特征工程有非常好的影响吗? 除此之外,在数据集中没有知识的发现之后,还有没有其他的好方法来填充NA?