nltk

0热度

1回答

我有一个DF： id text 1 This is a good sentence 2 This is a sentence with a number: 2015 3 This is a third sentence 我有一个文本清洗功能： def clean(text): lettersOnly = re.sub('[^a-zA-Z]',' ', text)

2热度

1回答

用中文和英文标记文本不当将英文单词拆分为字母

标记包含中文和英文的文本时，结果会将英文单词拆分为字母，这不是我想要的。考虑以下代码： from nltk.tokenize.stanford_segmenter import StanfordSegmenter segmenter = StanfordSegmenter() segmenter.default_config('zh') print(segmenter.segment('哈佛

1热度

2回答

从列表中提取第n个元素

我使用nltk .tokenize（），.pos_tag（）和wordnet .synsets（）获得以下输出。输出是用于文件和共发现自己的部分词性标注每个令牌可能匹配的列表的列表（在这里，我们有4个令牌，因此，比赛的4名名单）： [[Synset('document.n.01'), Synset('document.n.02'), Synset('document.n

0热度

1回答

针对速度（wmdistance）优化Gensim字移动器的距离函数

我使用gensimwmdistance来计算参考句子和其他1000个句子之间的相似度。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

1热度

1回答

NLTK标记化但不分割命名实体

我正在研究一个简单的基于语法的分析器。为此，我需要首先标记输入。在我的文章中出现了很多城市（例如纽约，旧金山等）。当我使用标准的nltk word_tokenizer时，所有这些城市都会被拆分。 from nltk import word_tokenize word_tokenize('What are we going to do in San Francisco?') 电流输出： ['W

3热度

1回答

用自然语言比较几种语料库的最佳方法是什么？

我一直在做一个研究项目的自然语言叙述报告的LDA主题模型（使用Gensim和python）。我有几个较小的语料库（从1400到200个文档 - 我知道，这很小！），我想比较，但我不知道怎么做，除了看每个LDA模型（例如pyLDAviz）。我的学术背景不在CS，而且我对NLP还是有点新的。跨语料库/主题模型比较话题有哪些好方法？例如，是否有可能估计两个LDA模型重叠？或者还有其他方法来评估几个语

0热度

2回答

无法导入nltk

我想在程序中导入nltk以下载语料库。但我得到的错误： Traceback (most recent call last): File "C:/Users/Android.DESKTOP-S6P9R3V.001/Desktop/ud120-projects-master/blah.py", line 1, in <module> import nltk File "

0热度

1回答

CountVectorizer（）：StreamBackedCorpusView”对象有没有属性‘低’

我试图在NLTK电影运行和实例CountVectorizer（）评论文集，使用下面的代码： >>>import nltk >>>import nltk.corpus >>>from sklearn.feature_extraction.text import CountVectorizer >>>from nltk.corpus import movie_reviews >>>neg_re

-1热度

3回答

找到动词的最佳介词

我有完成句子的任务，我有主语，动词，副词或主语，我需要的是介于两者之间的适当介词。是否有任何NLP工具可以分配可与动词结合的介词？最佳

4热度

2回答

如何行文本转换成有意义的话

我有一个线串的： "specificationsinaccordancewithqualityaccreditedstandards" 需要被分成标记化的词语，如： "specifications in accordance with quality accredited standards" 我已经试过nltk的word_tokenize但它不能转换，上下文：我解析PDF文档到文本文件