scikit-learn

0热度

1回答

读取k次交叉验证的文档http://scikit-learn.org/stable/modules/cross_validation.html我试图了解每个折叠的训练过程。这是正确的：在生成cross_val_score每个折叠包含一个新的训练和测试集合，这些训练和测试集由在分类clf在下面的代码为通过评估每个倍的性能利用？这意味着增加倍数的大小会影响精度，这取决于训练集的大小，因为倍数的增

3热度

1回答

LabelEncoder：TypeError：'>'不支持'float'和'str'的实例

即使处理了缺失值，我也面临着多个变量的这个错误。例如： le = preprocessing.LabelEncoder() categorical = list(df.select_dtypes(include=['object']).columns.values) for cat in categorical: print(cat) df[cat].fillna('UN

0热度

3回答

不能Python的导入sklearn 3.6

我试图导入小品学习库，但it's产生这个错误： Traceback (most recent call last): File "<pyshell#13>", line 1, in <module> import sklearn File "C:\Users\User\AppData\Local\Programs\Python\Python36\lib\site-pa

0热度

1回答

未知变量声明

我一直在阅读kaggle中的几个代码，并且遇到了模糊的实现。直到今天，我从来不知道我们可以在模型的外部声明一个变量。 from sklearn.linear_model import LogisticRegression ... model = LogisticRegression() .... model.loss = 0.01 model.penalty = 'l1' model.

0热度

1回答

余弦相似度得分scikit学会了两种不同的量化技术是相同的

我最近在分配任务的地方是使用20_newgroups数据集，并使用3种不同的矢量化技术（文字包，TF，TFIDF）来表示文件的工作矢量格式，然后尝试分析20_Newsgroups数据集中每个类之间的平均余弦相似度之间的差异。所以这就是我在Python中想要做的。我正在读取数据并将其传递给sklearn.feature_extraction.text.CountVectorizer Bag's Wo

-1热度

1回答

与RandomForestClassifier奇怪的行为estimators_

我有这样的代码： import pandas as pd from sklearn.ensemble import RandomForestClassifier df = pd.read_csv('musk_clean.csv') X=df.iloc[:,0:-1] y=df.iloc[:,-1] clf=RandomForestClassifier(1) clf.fit(X,y)

2热度

2回答

使用MLP分类器，一类精度为零

我有一个约为45000样本的数据集，每个样本的二进制输出为0或1。但是，在sklearn包中使用MLP分类器之后，无论输入什么内容，我都获得了一个输出为1的模型。类0的精度为零。我试图改变模型的超参数，但输出是相同的。任何人都可以提出一种方法来克服它吗？ precision recall f1-score support

1热度

1回答

SVM自定义RBF内核IndexError

我想为我的非线性可分数据实现SVM RBF内核。我定义我的内核： def rbf(va, vb): gamma = 0.7 return exp(-gamma * linalg.norm(va - vb) ** 2) clf = svm.SVC(kernel=rbf) clf.fit(va, vb) 它显示错误： if X.shape[0] != X.shape[1]:

1热度

1回答

是否可以在大型稀疏矩阵上使用scikit TSNE？

scikit documentation解释fit_transform只能用于密集矩阵，但我有一个csr格式的稀疏矩阵，我想执行tsne。该文档说为使用稀疏矩阵使用fit方法，但是这不会返回低维嵌入。我明白我可以使用.todense()方法如this question，但我的数据集非常大（0.4 * 10^6行和0.5 * 10^4列），从而不会配合在存储器中。真的，使用稀疏矩阵来做这个很好。有

0热度

1回答

对熊猫数据帧切片执行操作时的内存错误

目标是计算熊猫数据帧中两组列之间的RMSE。问题是实际使用的内存量几乎是数据帧大小的10倍。下面是我用来计算RMSE代码： import pandas as pd import numpy as np from random import shuffle # set up test df (actual data is a pre-computed DF stored in HDF5)