naivebayes

    1热度

    1回答

    我正在处理类非常不平衡的分类问题。为了解决这个问题,我使用了替换过度采样。 (如这里所建议的:http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ )。 然后我将数据集(过采样的一个)分成训练和测试集,并训练朴素贝叶斯算法。当我想测试时,可以使

    0热度

    1回答

    我现在通过使用nltk来学习naivebayes分类器。 在文档(http://www.nltk.org/book/ch06.html)1.3文档分类中,有一个特征集示例。 featuresets = [(document_features(d), c) for (d,c) in documents] train_set, test_set = featuresets[100:], featur

    -1热度

    1回答

    我已经使用e1071软件包为朴素贝叶斯分类器创建了一个模型。我需要以下面的格式打印条件概率。 (A1 = x1 | c1)= 0.33 P(A2 = y1 | c1)= 0.67 P(A2 = y2 | c1)= 0.25 P(A2 = y2 | c1)= 0.32 P = 0.75 P(A3 = z1 | c1)= 0.26 P(A3 = z2 | c1)= 0.49 P(A3 = z3 | c

    0热度

    1回答

    我遇到了一个问题,我只想总结一下我正在尝试完成的内容,以便您获得清晰的图像来指导我。 我想创建一个语料库类似的东西movie_reviews其中movie_review只有2个类别,但如果在我来说,我将有多个类别和子类别。 例如: 说我有一个语料库my_corpus中,我想 创建的类别,如 'A', 'B', 'C', 'd' 和 'E'。每个 类别都将包含子类别,例如在'A'中,我想要 子类别,

    0热度

    1回答

    如何解决此错误? mvnpdf.m % y = mvnpdf(x,mu,Sigma) % Compute multivariate normal pdf for x given mean mu and covariance matrix % sigma. The dimension of x is d x p, mu is 1 x p and sigma is p x p. functio

    0热度

    1回答

    我现在正在制作nltk_classifier分类句子的分类。 所以我已经用11000个句子的特征集训练了分类器。 train_set, test_set = featuresets[1000:], featuresets[:1000] classifier = naivebayes.NaiveBayesClassifier.train(train_set) 但我想为升级分类器添加更多(句子,

    1热度

    1回答

    我必须实现朴素贝叶斯分类器将文档分类到一个类。因此,在获得属于类的术语的条件概率以及拉普拉斯平滑时,我们有: prob(t | c)= Num(Word出现在类c的文档中)+ 1/Num(类c)中的文档+ | V | 它是一个bernoulli模型,它可能有1或0,词汇量非常大,可能有20000个单词等等。所以,拉普拉斯平滑不会由于词汇量庞大而给出非常小的值,或者我做错了什么。 根据此链接的伪代码

    0热度

    1回答

    我在使用klaR包运行朴素贝叶斯时遇到此错误。 我想分享数据以便复制,但是我这样做有一些限制,因为我不确定发生了什么,所以无法创建将会重新创建自己的数据集。我希望有人读到这个可能以前遇到过并且克服了这个错误。 以下是错误: Error in if (any(temp)) stop("Zero variances for at least one class in variables: ", :

    -1热度

    1回答

    比方说,我有一个数据集有9个连续的数据列和4个分类数据列。在Matlab中,我的列分成两组并在其上做训练/测试(朴素贝叶斯)分开,并确定该连续列具有0.45错误率和分类列具有一个错误0.33。我的问题是 - 我如何确定组合错误? EDIT - 简单的伪代码概述加入: for x = 1:num_iterations Mdl_NB1 = fitcnb(TrainingSet_Con,Tra

    -1热度

    1回答

    我想问一下,我有10个有声参数的列,以及在此刻记录两个乐器的两列之后。 我有10列声音参数的数据后,我需要预测使用哪一台仪器。 我知道数据预处理等,但我想仔细检查我是否选择了正确的分类。对于我提供的例子,适用于NaïveBayes或线性回归还是SVN?我只是混淆了哪一个更适合这个特殊的例子。