-2
我必须从包含50K推文的文本文件中删除停用词。当我运行此代码时,它会成功删除停用词,但同时它也会删除空格。我想在文本中使用空格。如何从文本文件中删除停用词而不删除空格
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import codecs
import nltk
stopset = set(stopwords.words('english'))
writeFile = codecs.open("outputfile", "w", encoding='utf-8')
with codecs.open("inputfile", "r", encoding='utf-8') as f:
line = f.read()
tokens = nltk.word_tokenize(line)
tokens = [w for w in tokens if not w in stopset]
for token in tokens:
writeFile.write(token)
那么你将结束一条很长的路线,但对你更有力量。 – tripleee 2015-02-11 04:44:57
在单词之间放置空格。 – tripleee 2015-02-11 04:51:04
它不可行,因为这个文件有超过50000行 – ALphaCS 2015-02-11 04:52:16