2016-12-04 44 views
1

使用NLTK工作,我正在为一个项目进行原型设计。我来自PHP,所以Python对我来说有点陌生。如何在Python中的字符串的开头或结尾删除停用词?

我有1和4

之间

我要清理由 该字符串微调任何禁用词的两端禁用词的 列表和正字串,n为。如果我在删除一个停用词之后需要重新测试该字符串,因为可能在其后面有另一个。

你会如何在Python中进行性能优化?

+0

怎么样:http://stackoverflow.com/questions/5486337/how-to-remove- stop-words-using-nltk-or-python – jmunsch

回答

1

将字符串标记为单词。

使用快速设置的成员资格操作员可以在匹配停用词列表时消除前导/尾随令牌。

如果下一步真正需要的字符串,然后拼接的单词列表返回到一个与惯用' '.join(your_list)

+1

设置成员资格是这里的线索。 'set .__ contains __()'是一个常量时间操作,而'list .__包含__()',它是线性时间。此外,如果您的标记位于“列表”中,则从列表前面删除元素是一种线性时间操作,因此您可以通过优化如何去除前导停用词来获得更好的性能。 –

相关问题