text-classification

1热度

1回答

我想使用Stanford Classifier进行文本分类。我的功能主要是文本功能，但也有一些数字功能（例如句子的长度）。我通过简单的实值特征F与值100开始了与所述ClassifierExample和替换所述当前特征如果停止灯是BROKEN和0.1否则，其从makeStopLights()函数导致在下面的代码（除了在第10行-16，这是当初ClassifierExample只是类的代码）： p

1热度

1回答

RTextTools：理解'algorithm_summary'

我试图了解RTextTools如何为分类文档提供一组优秀的函数。但是，在运行内置数据集时，我无法理解如何解释下表。（不知为什么有10行） SVM_PRECISION SVM_RECALL SVM_FSCORE MAXENTROPY_PRECISION MAXENTROPY_RECALL MAXENTROPY_FSCORE 2 NaN 0 NaN 0.5 1

2热度

1回答

在java中使用朴素贝叶斯（weka）的简单文本分类

我尝试在我的java代码中做文本分类朴素贝叶斯weka libarary，但我认为分类的结果是不正确的，我不知道是什么问题。我使用arff文件输入。这是我的训练数据： @relation hamspam @attribute text string @attribute class {spam,ham} @data 'good',ham 'good',ham 'very good

1热度

1回答

错误mx.sym.Reshape（）

我试图按照文本分类教程上http://mxnet.io/tutorials/nlp/cnn.html 直到我打电话功能： conv_input = mx.sym.Reshape(data=embed_layer, target_shape=(batch_size, 1, sentence_size, num_embed)) 一切顺利。但后来我得到的错误： conv_input = mx.sym

5热度

1回答

gensim LabeledSentence和TaggedDocument

有什么区别请帮我理解gensim的TaggedDocument和LabeledSentence如何工作。我的最终目标是使用Doc2Vec模型和任何分类器进行文本分类。我正在关注这个blog！ class MyLabeledSentences(object): def __init__(self, dirname, dataDct={}, sentList=[]): self.

0热度

1回答

建议基于文本内容的how-to文章列表

我的客户和我的支持人员之间有20,000条消息（电子邮件和实时聊天的组合）。我也有我的产品知识库。很多时候，客户提出的问题都很简单，我的支持人员只是将它们指向正确的知识库文章。为了节省我的支持人员时间，我想要做的是根据初始用户的支持请求向我的员工展示可能相关的文章列表。这样，他们可以将链接复制并粘贴到帮助文章，而不是加载知识库并手动搜索文章。我想知道我应该调查什么解决方案。我的想法的当前行

0热度

2回答

文本分类 - 标签预处理

我有一个1M +观察客户与呼叫中心交互的数据集。该文本是由代表接听电话的自由文本。文本格式不正确，也不接近于语法正确（很多简写）。没有任何自由文本在数据上有标签，因为我不知道要提供哪些标签。鉴于数据的大小，数据的随机抽样（给予高度置信度）是确定要创建什么标签的合理第一步？是否可能不需要手动标记来自数据的400多个随机观测数据，还是没有其他方法来预处理数据以确定用于分类的一组好的标记？感谢有关此

0热度

1回答

什么是清洁非结构化数据

我需要帮助一对夫妇的事情。我是新来的NLP和非结构化数据清洗的正规流程..有人可以回答以下几个问题...感谢需要帮助用正则表达式来识别像_male和female_这样的词，或者像_word和word_或_something_something_something这样的更通用的词，并且摆脱开头或结尾但不在中间的下划线。我想知道清理数据的正式过程，就像我们在清理非结构化数据时需要遵循的步骤一样，我

3热度

1回答

MultinomialNB - Theory vs practice

好吧，我只是在学习Andrew Ng的机器学习课程。我目前正在阅读this chapter，并且想使用SKLearn和Python尝试Multinomial朴素贝叶斯（第12页底部）。所以安德鲁提出了一种方法，在这种情况下，每个电子邮件进行编码，我们让x_i表示在电子邮件中i个字的身份。因此，现在x_i是整数取值在{1, . . . , |V|}，其中|V|是我们的词汇（字典）的大小。由n个词

-1热度

1回答

Scikit学习分类

有没有一种简单的方法来查看每个课程的顶级功能？基于tfidf？我正在使用KNeighbors classifer，SVC-Linear，MultinomialNB。其次，我一直在寻找一种方法来查看尚未被正确分类的文档？我可以查看混淆矩阵，但我希望看到具体文档以查看哪些功能导致错误分类。 classifier = SVC(kernel='linear') counts = tfidf_vect