sklearn-pandas

0热度

1回答

当使用scikit学习或其他类似的Python库，有什么做的区别： import sklearn.cluster as sk model = sk.KMeans(n_clusters=n) 而且 from sklearn.cluster import KMeans model = KMeans(n_clusters=n) 是否有任何优势，使用一种方法比其他？

0热度

2回答

如何使用sklearn的CountVectorizer进行矢量化和devectorize？

我想将某些文本向量化为相应的整数，然后将这些文本转换为其映射的整数，并使用新的输入整数[2,9,39,46,56,12,89,9]创建新句子。我见过一些可以用于此目的的自定义函数，但我想知道sklearn本身是否具有这样的功能。 from sklearn.feature_extraction.text import CountVectorizer a=["""Lorem ipsum dolo

0热度

2回答

选择每个类的n元素

我使用的是熊猫，我有一组数据和大约4千万观察值。我想知道什么是为每个类选择50个随机元素或前50个元素的最佳/最快/最有效的方式（类只是一列）。我列中的唯一类数约为2k，我想选择100,000个元素的子集，每个类有50个元素。我在考虑将它们分组到课堂，然后遍历每个组并选择前50个元素，然后继续到下一个组。我想知道有没有更好的方法来做到这一点？

0热度

1回答

无法在sklearn中从csv文件中fit_transform数据

我想在Scikit-learn中学习一些分类。但是，我无法弄清楚这个错误的含义。 import pandas as pd from sklearn.feature_extraction.text import CountVectorizer data_frame = pd.read_csv('data.csv', header=0) data_in_numpy = data_frame.v

0热度

1回答

错误在sklearn实施SVC

我想实现SVC用于预测一个连续变量： print("X_train_dtm type ", type(X_train_dtm)) print("y_train type ", type(y_train)) svc = svm.SVC(kernel='linear', C=C).fit(X_train_dtm, y_train) 但是我得到以下输出和错误： X_train_dtm type

0热度

1回答

如何矢量化分类数据

我想向量化一些分类数据以构建列车和测试矩阵。我有85个城市，我想获得一个矩阵282520行，每一行是像 [1 0 0 ..., 0 0 0] 矢量我想有每行的矢量为1或0取决于城市，所以每因此城市应该是一个列： print(df['city']) 0 METROPOLITANA DE SANTIAGO 1 METROPOLITANA DE SANTIAGO 2 METRO

1热度

1回答

路径scikit学习

与熊猫数据帧，d_train（774行）开始：的想法是仿效here调查岭系数路径。在这个例子中，这里的变量类型： X, y, w = make_regression(n_samples=10, n_features=10, coef=True, random_state=1, bias=3.5) print X.shape, type(X), y.shape, type

0热度

1回答

将任何sklearn结果映射回原始数据框

我想分析我的随机森林结果的预测值，并以原始测试数据作为参考。预测结果来自于一个数组我用这个： predict = rf.predict(test[columns]) 我怎么映射回预测结果用大熊猫原始数据集？问候， galeej

2热度

2回答

错误尝试导入sklearn模块时：导入错误：DLL加载失败：指定的模块找不到

我尝试为机器学习项目执行下列操作输入情况： from sklearn import preprocessing, cross_validation, svm from sklearn.linear_model import LinearRegression 我得到这个错误信息： Traceback (most recent call last): File "C:/Users/Ab

3热度

1回答

如何在定义掩码为真时更改特定的列值？

我有一个数据帧中，我有这些列名 'TEAM1'， 'TEAM2'， '城市'， '日期'。我想要做的是在某些条件满足时（我使用mask定义）将'city'的值赋值为'dubai'。这是我做的究竟是什么： matches[((matches['team1']=='mi') & (matches['team2']=='rcb') & (matches['date']=='2014-04-19'))