naivebayes

1热度

2回答

我正在使用NB分类器进行情感分析。我发现一些信息（博客，教程等）训练语料库应平衡： 33.3％正面; 33.3％的中性 33.3％的负我的问题是：为什么corspus应该是平衡的？贝叶斯定理基于理性/案例的可预见性。因此，对于训练目的来说，在现实世界中，例如负面推文只有10％而不是33.3％是不是很重要？

-1热度

1回答

如何在java中使用weka在文档分类中传递动态测试实例

我是weka的新手。目前我正在使用weka和java进行文本分类。我的训练数据集有一个String属性和一个class属性。 @RELATION test @ATTRIBUTE tweet string @ATTRIBUTE class {positive,negative} 我想动态创建一个测试即时，并使用Naive-Bayes分类器进行分类。 public static void m

0热度

1回答

带插入符号的Text2Vec分类 - 朴素贝叶斯警告消息

有关更多上下文，请参阅question listed here。我试图使用text2vec构建的文档术语矩阵来训练使用caret包的朴素贝叶斯（nb）模型。但是，我得到这样的警告消息：警告消息：在的eval（XPR，ENVIR = ENVIR）：模型拟合失败Fold01.Rep1：usekernel = FALSE，FL = 0，调整= 1个错误NaiveBayes.default（X，Y

0热度

2回答

提高准确性朴素贝叶斯分类器

我写了一个简单的文档分类器，目前我正在布朗语料库上测试它。但是，我的准确度仍然很低（0.16）。我已经排除了停用词。关于如何提高分类器性能的其他想法？ import nltk, random from nltk.corpus import brown, stopwords documents = [(list(brown.words(fileid)), category)

0热度

1回答

opencv Normbal贝叶斯预测概率输出零

我有一些训练数据，包括从图像和不同的类标签中提取的许多特征。我设法使用C++中的OpenCV3来训练Normal Bayes分类器。我能够将新的测试数据传入分类器，以使用predict（）函数获取预测的类标签。但是，我不想简单地得到预测的类标签，我也希望使用类NormalBayesClassifier的predictProb（）函数知道每个测试数据的每个类标签的概率。有这似乎是能够回到每类标签

-1热度

1回答

实现朴素贝叶斯分类器的低准确性

我有用于实现朴素贝叶斯概念的朴素贝叶斯分类器的代码，但该算法给我的准确度约为48％，而且它比天真贝叶斯的MATLAB内置函数低得多贝叶斯（84％）。有人可以帮我解决问题吗？这里是我的代码： function [conf, confMat] = NaiveBayesClassifier(train, test) Att_cnt = size(train, 2) - 1; % trainin

0热度

1回答

我应该如何重新格式化我的数据sklearn.naive_bayes.GaussianNB

我有一个数据集users。每个用户都有性别和颜色属性（最喜欢的颜色），等等。我分一种性别的用户的每个颜色和总和其中这样颜色的一个列表： features_train = [['indigo', 2341], ['yellow', 856], ['lavender', 690], ['yellowgreen', 1208], ['indigo', 565], ['yellow', 103], ['l

0热度

1回答

低频术语 - 朴素贝叶斯提高准确性

我有成千上万的因素（分类变量），我正在应用朴素贝叶斯分类。我的问题是，我有很多因素在我的数据集中出现很少次，所以它似乎降低了我的预测的性能。事实上，我注意到，如果我删除了很少发生的分类变量，我的准确性有了显着的提高。但理想情况下，我想保留所有因素，你知道最佳做法是什么吗？非常感谢。

1热度

1回答

SKLearn Naive Bayes：在tfidf矢量化后添加功能

因此，我一直负责培训电话记录模型。以下代码执行此操作。一个小背景信息： - x是字符串列表，每个第i个元素是整个转录本 - y是布尔值列表，表明调用的结果是正数还是负数。以下代码有效，但这是我的问题。我想将通话时间作为一项功能加以训练。我会假设TFIDF转换器向量化成绩单后，我只是将通话时长功能连接到TFIDF输出权？也许这比我想象的要容易些，但是我在代码的开头看到熊猫数据框中的成绩单和持续时

0热度

1回答

Textblob逻辑帮助。 NaiveBayesClassifier

我正在构建一个简单的分类器，它可以确定句子是否是肯定的。这是我如何使用textblob训练分类器。 train = [ 'i love your website', 'pos', 'i really like your site', 'pos', 'i dont like your website', 'neg', 'i dislike your site'