scikit-learn

    0热度

    1回答

    读取k次交叉验证的文档http://scikit-learn.org/stable/modules/cross_validation.html我试图了解每个折叠的训练过程。 这是正确的: 在生成cross_val_score每个折叠包含一个新的训练和测试集合,这些训练和测试集由在分类clf在下面的代码为通过评估每个倍的性能利用? 这意味着增加倍数的大小会影响精度,这取决于训练集的大小,因为倍数的增

    3热度

    1回答

    即使处理了缺失值,我也面临着多个变量的这个错误。 例如: le = preprocessing.LabelEncoder() categorical = list(df.select_dtypes(include=['object']).columns.values) for cat in categorical: print(cat) df[cat].fillna('UN

    0热度

    3回答

    我试图导入小品学习库,但it's产生这个错误: Traceback (most recent call last): File "<pyshell#13>", line 1, in <module> import sklearn File "C:\Users\User\AppData\Local\Programs\Python\Python36\lib\site-pa

    0热度

    1回答

    我一直在阅读kaggle中的几个代码,并且遇到了模糊的实现。直到今天,我从来不知道我们可以在模型的外部声明一个变量。 from sklearn.linear_model import LogisticRegression ... model = LogisticRegression() .... model.loss = 0.01 model.penalty = 'l1' model.

    0热度

    1回答

    我最近在分配任务的地方是使用20_newgroups数据集,并使用3种不同的矢量化技术(文字包,TF,TFIDF)来表示文件的工作矢量格式,然后尝试分析20_Newsgroups数据集中每个类之间的平均余弦相似度之间的差异。所以这就是我在Python中想要做的。我正在读取数据并将其传递给sklearn.feature_extraction.text.CountVectorizer Bag's Wo

    -1热度

    1回答

    我有这样的代码: import pandas as pd from sklearn.ensemble import RandomForestClassifier df = pd.read_csv('musk_clean.csv') X=df.iloc[:,0:-1] y=df.iloc[:,-1] clf=RandomForestClassifier(1) clf.fit(X,y)

    2热度

    2回答

    我有一个约为45000样本的数据集,每个样本的二进制输出为0或1。但是,在sklearn包中使用MLP分类器之后,无论输入什么内容,我都获得了一个输出为1的模型。类0的精度为零。我试图改变模型的超参数,但输出是相同的。任何人都可以提出一种方法来克服它吗? precision recall f1-score support

    1热度

    1回答

    我想为我的非线性可分数据实现SVM RBF内核。我定义我的内核: def rbf(va, vb): gamma = 0.7 return exp(-gamma * linalg.norm(va - vb) ** 2) clf = svm.SVC(kernel=rbf) clf.fit(va, vb) 它显示错误: if X.shape[0] != X.shape[1]:

    1热度

    1回答

    scikit documentation解释fit_transform只能用于密集矩阵,但我有一个csr格式的稀疏矩阵,我想执行tsne。该文档说为使用稀疏矩阵使用fit方法,但是这不会返回低维嵌入。 我明白我可以使用.todense()方法如this question,但我的数据集非常大(0.4 * 10^6行和0.5 * 10^4列),从而不会配合在存储器中。真的,使用稀疏矩阵来做这个很好。有

    0热度

    1回答

    目标是计算熊猫数据帧中两组列之间的RMSE。问题是实际使用的内存量几乎是数据帧大小的10倍。下面是我用来计算RMSE代码: import pandas as pd import numpy as np from random import shuffle # set up test df (actual data is a pre-computed DF stored in HDF5)