nltk

2热度

3回答

我目前正在开发一个项目，我正在接收电子邮件，使用电子邮件包剥离邮件正文，然后我想用体育，政治，技术等标签对它们进行分类。等等...我已经成功地从我的电子邮件中删除了邮件正文。我期待着开始分类。为了制作多个标签，如运动，科技，政治，娱乐等，我需要每个标签的一组词语来制作标签。举例体育标签将标签数据：足球，足球，曲棍球...... 我在哪里可以找到网上的标签数据，以帮助我吗？

0热度

1回答

如何从POS标签中确定过去完成时态

过去完美形式的'我爱'。是'我爱过'。我试图通过POS标签（使用NLTK，spacy，Stanford CoreNLP）来识别过去的完美。我应该寻找什么POS标签？相反..我应该寻找过去的形式有..将是详尽的？ I PRP PRON had VBD VERB loved VBN VERB . . PUNCT

2热度

1回答

如何在gensim中使用TaggedDocument？

我有两个目录，我想读他们的文本文件和标签，但我不知道如何通过TaggedDocument做到这一点，我认为它会作为TaggedDocument（[字符串]，[标签]），但这doesn显然工作。这是我的代码： from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

32热度

1回答

如何提取数字（与比较形容词或范围沿）

我的工作在两个NLP项目在Python，两者有相似的任务可以从类似的句子中提取值和比较操作： "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我看到两种不同的方式来解决这个

0热度

2回答

提高准确性朴素贝叶斯分类器

我写了一个简单的文档分类器，目前我正在布朗语料库上测试它。但是，我的准确度仍然很低（0.16）。我已经排除了停用词。关于如何提高分类器性能的其他想法？ import nltk, random from nltk.corpus import brown, stopwords documents = [(list(brown.words(fileid)), category)

1热度

3回答

问题与安装Python报纸包

我在虚拟环境中安装使用下面的命令的Python库报： pip install newspaper 我碰到下面的错误。在我尝试了一些来自StackOverflow的解决方案后，它仍然存在，但它不起作用。我在解决安装特定版本（和更新）安装工具（不同机器）之前遇到了同样的问题。但是，它在这里不起作用。任何想法我做错了什么？这个错误实际上意味着什么？ Pycharm在虚拟环境下，Python 2.

2热度

1回答

与NLTK，当给定某个单词时，如何生成不同形式的单词？

例如，假设给出单词“幸福”，我想生成其他形式的快乐，如快乐，快乐地......等我读＃2和NLTK引用其他一些以前的问题。然而，只有POS标签，变形就像识别句子中某些单词的语法形式一样，而不是生成不同单词的列表。有没有人遇到类似的问题？谢谢。

0热度

2回答

在Python3与nltk如果某个单词是动词，如果某个单词是动词，名词.etc

如何返回true如果输入中的第一个单词是动词，我需要我的函数返回true。我试过这个，但它不起作用（即使它是一个动词也没有返回任何东西），有人可以告诉我一个我做错了什么的例子。还有一个正确的做法是，谢谢你！ def All(): what_person_said = input() what_person_said_wt = nltk.word_tokenize(what_p

4热度

3回答

Python上完整的字符串

我需要在葡萄牙语字符串上执行词干。要做到这一点，我使用nltk.word_tokenize（）函数a来标记字符串，然后逐个词干每个词。之后，我重建了字符串。它正在工作，但表现不佳。我怎样才能让它更快？字符串长度大约是200万字。 tokenAux="" tokens = nltk.word_tokenize(portugueseString) for token in tok

1热度

2回答

NLTK：模态频率条形图

我是一个nltk初学者。最近，我在绘制模态频率的条形图时遇到了困难。 colors = 'rgbcmyk' def bar_chart(categories, words, counts): import pylab ind = pylab.arange(len(words)) width = 1/(len(categories) + 1) bar_gro