scikit-learn

    0热度

    2回答

    我给出的这个数据集: https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data 我基于这样的事实,它拥有最大的信息增益,以获得最佳的功能。我正在手动做。但是有没有一种方法可以使用sklearn或其他库来计算它? 只是为了参考我写这段代码: false_count=0.0; true_count=0.0; t

    0热度

    1回答

    我试图实现一个模型,该模型需要167个分类变量(0或1)的数组,并输出0和1之间的估计值。超过300个数据点可用。使用基本模型时,下面 的样板工程: classifier = Sequential() classifier.add(Dense(units = 80, kernel_initializer = 'uniform', activation = 'relu', input_dim =

    4热度

    2回答

    我工作的一个Python桌面应用程序。这个应用程序做了一些预测。现在我使用python脚本训练我sklearn模型,该模型的参数保存在YAML文件的字典。然后,我将这个yaml构建到我的python应用程序中。然后,当我使用应用程序时,将使用字典中的参数重新创建模型。我意识到,拥有不同版本sklearn的人会遇到错误。我想救我的模型处于困境之中的文件,但在这种情况下,当产生了应用程序的机器上运行不

    0热度

    1回答

    我目前在scikit-learn中使用LogisticRegression来解决多类分类问题。我已经决定使用LogisticRegression,因为我已经阅读了几篇文章,将它描述为一个经过良好校准的算法,并根据它返回的预测概率进行了描述。 对于分类器的每个结果,我检查其预测概率以及分类观察与具有相同决策等级的训练集中其余示例之间的距离。 我感到惊讶的是,即使一个类已经被预测具有90%以上的置信度

    1热度

    1回答

    我有一个包含二元分类问题的不平衡数据集。我构建了随机森林分类器并使用了10次k折交叉验证褶皱。 kfold = model_selection.KFold(n_splits=10, random_state=42) model=RandomForestClassifier(n_estimators=50) 我被录取结果 print("Accuracy: %.3f%% (%.3f%%)") %

    0热度

    1回答

    我有4个不同的数据集,每个数据集都包含属于两个类别之一的二维样本:1或2.每个样本的类别标签(1或2)位于最后一列。第一列和第二列包含表示样本的2D点的坐标。我的任务是, 对于K-NN找到k的最佳值,并将其与那些1-NN的使用Scikit 我是新来的机器学习和python比较。请让我知道如何找到最好的k,并根据哪个衡量标准选择最好的k。

    0热度

    1回答

    我有CountVectorizer和CharNGramAnalyzer之间的混淆。根据我的理解, CountVectorizer构建一个计数矩阵,其中行是出现计数的不同词考虑到高维稀疏性。 CharNGramAnalyzer构建一个计数矩阵,其中行是不同字符出现次数的计数。由于它不考虑文字,因此不需要知道单词之间的分隔,并且适用于英语以外的语言。 我对我的理解是否正确?如果不是,我想要一个详细的解

    -1热度

    1回答

    在KNN (K nearest neighbour)分类器中,如果选择K的偶数值,那么多数投票规则或欧几里得距离规则中的预测会是什么。例如,如果有3班说 虹膜setosa 虹膜云芝 虹膜弗吉尼亚 现在说我们的n_neighbors = 6价值。多数票投票规则有相当多的机会获得平局结果?在大多数可视化中,这个地区都以白色表示,说不能做出任何决定。但是对于领带的实际预测是什么?这个问题很难模拟,相当概

    -1热度

    1回答

    我成功地在我的本地主机上运行scikit学习预测模型,现在我有兴趣将此模型添加到我的烧瓶静态网站。我怎样才能做到这一点?有什么建议么?我基本上想在flask静态网站上添加一个链接到预测模型。 例如 静态的网站在本地主机上运行:5000具有下面的代码 @app.route('/index') def index(): return render_template('index.html'

    1热度

    1回答

    我有一组标记的训练数据,我正在训练ML算法来预测标签。但是,我的一些数据点比其他数据点更重要。或者,类似地,这些点比其他点的不确定性更少。 是否有一种通用方法在模型中为每个训练点添加重要性代表权重?是否有一些具有这种能力的具体模型,而其他的则不是? 我可以想象复制这些点(也许稍微涂抹它们的特征以避免精确重复)或下采样不太重要的点。有没有更好的方法来解决这个问题?