0
我已经编写了一些代码来查找存储在位置路径中的文件中包含的单词的频率和文档频率。每个文件都通过函数cleanDoc()
从文本文件中获取单词,并且我希望以表格方式提交术语频率,以便所有文档中的所有单词都应该被视为查找计数。任何人都可以告诉我应该如何实现它?我只使用NLTK。字词的频率和文档频率
import collections
import os.path
import glob
import nltk
wdict = set()
path = "C://Python27//Corpus Files//*.*"
#this function cleans up a doc (removes stopwords etc)
def cleanDoc(doc):
stopset = set(nltk.corpus.stopwords.words('english'))
stemmer = nltk.PorterStemmer()
tokens = nltk.WordPunctTokenizer().tokenize(doc)
clean = [token.lower() for token in tokens if token.lower() not in stopset and len(token) > 3 and token.isalpha()]
final = [stemmer.stem(word) for word in clean]
return final
for text in glob.glob(path):
f = open(text)
data= f.read()
words = cleanDoc(data)
wdict.update(words)
它不考虑保存在路径中的所有文档中的所有单词。我只有几个学期的成绩。 – DummyGuy
我的不好,现在要修复它。 –
对不起,但它不起作用。我想要参考该文件来计算单词。 – DummyGuy