nltk

    2热度

    3回答

    我目前正在开发一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育,政治,技术等标签对它们进行分类。等等...我已经成功地从我的电子邮件中删除了邮件正文。我期待着开始分类。 为了制作多个标签,如运动,科技,政治,娱乐等,我需要每个标签的一组词语来制作标签。举例 体育标签将标签数据:足球,足球,曲棍球...... 我在哪里可以找到网上的标签数据,以帮助我吗?

    0热度

    1回答

    过去完美形式的'我爱'。是'我爱过'。我试图通过POS标签(使用NLTK,spacy,Stanford CoreNLP)来识别过去的完美。我应该寻找什么POS标签?相反..我应该寻找过去的形式有..将是详尽的? I PRP PRON had VBD VERB loved VBN VERB . . PUNCT

    2热度

    1回答

    我有两个目录,我想读他们的文本文件和标签,但我不知道如何通过TaggedDocument做到这一点,我认为它会作为TaggedDocument([字符串],[标签]),但这doesn显然工作。这是我的代码: from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

    32热度

    1回答

    我的工作在两个NLP项目在Python,两者有相似的任务可以从类似的句子中提取值和比较操作: "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我看到两种不同的方式来解决这个

    0热度

    2回答

    我写了一个简单的文档分类器,目前我正在布朗语料库上测试它。但是,我的准确度仍然很低(0.16)。我已经排除了停用词。关于如何提高分类器性能的其他想法? import nltk, random from nltk.corpus import brown, stopwords documents = [(list(brown.words(fileid)), category)

    1热度

    3回答

    我在虚拟环境中安装使用下面的命令的Python库报: pip install newspaper 我碰到下面的错误。在我尝试了一些来自StackOverflow的解决方案后,它仍然存在,但它不起作用。 我在解决安装特定版本(和更新)安装工具(不同机器)之前遇到了同样的问题。但是,它在这里不起作用。 任何想法我做错了什么?这个错误实际上意味着什么? Pycharm在虚拟环境下,Python 2.

    2热度

    1回答

    例如,假设给出单词“幸福”,我想生成其他形式的快乐,如快乐,快乐地......等 我读#2和NLTK引用其他一些以前的问题。然而,只有POS标签,变形就像识别句子中某些单词的语法形式一样,而不是生成不同单词的列表。有没有人遇到类似的问题?谢谢。

    0热度

    2回答

    如何返回true如果输入中的第一个单词是动词,我需要我的函数返回true。 我试过这个,但它不起作用(即使它是一个动词也没有返回任何东西),有人可以告诉我一个我做错了什么的例子。还有一个正确的做法是,谢谢你! def All(): what_person_said = input() what_person_said_wt = nltk.word_tokenize(what_p

    4热度

    3回答

    我需要在葡萄牙语字符串上执行词干。要做到这一点,我使用nltk.word_tokenize()函数a来标记字符串,然后逐个词干每个词。之后,我重建了字符串。它正在工作,但表现不佳。我怎样才能让它更快?字符串长度大约是200万字。 tokenAux="" tokens = nltk.word_tokenize(portugueseString) for token in tok

    1热度

    2回答

    我是一个nltk初学者。最近,我在绘制模态频率的条形图时遇到了困难。 colors = 'rgbcmyk' def bar_chart(categories, words, counts): import pylab ind = pylab.arange(len(words)) width = 1/(len(categories) + 1) bar_gro