我有一组停用词,我希望从我解析的内容中删除。该清单非常详尽,包含很多代词和其他常用词,例如was
,being
,our
等,但不幸的是还有i
,a
,just
和其他。替换给定集合中所有出现的单词,但前提是该单词不包含在另一个单词中
我希望删除所有这些停用词,但是只有(如果它们被空格(包括制表符和换行符)包围)。
我在想在这里需要一个正则表达式,但它有可能有一个正则表达式里面有一个变量吗?
正如我在做这在Python,我会是这样的:
for word in stopwords:
text = text.replace(`regex for current word`, '')
这是可行的?在这种情况下,正则表达式会是什么?
如果“单词”处于开始或结束状态,这将不起作用。 – vks 2014-12-04 14:08:49
确实如此,但'word'通常是这样的,它不在文档的开始或结尾,例如'Disclaimer','Copyright','owner'等。换句话说,我发现它是一个可接受的交易-off。 – user991710 2014-12-04 14:30:59