过去完美形式的'我爱'。是'我爱过'。我试图通过POS标签(使用NLTK,spacy,Stanford CoreNLP)来识别过去的完美。我应该寻找什么POS标签?相反..我应该寻找过去的形式有..将是详尽的? I PRP PRON had VBD VERB loved VBN VERB . . PUNCT
我有两个目录,我想读他们的文本文件和标签,但我不知道如何通过TaggedDocument做到这一点,我认为它会作为TaggedDocument([字符串],[标签]),但这doesn显然工作。这是我的代码: from gensim import models
from gensim.models.doc2vec import TaggedDocument
import utilities as
我的工作在两个NLP项目在Python,两者有相似的任务可以从类似的句子中提取值和比较操作: "... greater than $10 ... ",
"... weight not more than 200lbs ...",
"... height in 5-7 feets ...",
"... faster than 30 seconds ... "
我看到两种不同的方式来解决这个
我需要在葡萄牙语字符串上执行词干。要做到这一点,我使用nltk.word_tokenize()函数a来标记字符串,然后逐个词干每个词。之后,我重建了字符串。它正在工作,但表现不佳。我怎样才能让它更快?字符串长度大约是200万字。 tokenAux=""
tokens = nltk.word_tokenize(portugueseString)
for token in tok