2014-03-19 154 views
0

我试图匹配字符串中的单词,但是我不想匹配另一个单词的一部分的单词......糟糕的解释!如果有词pen。我想匹配字符串中的该字:在单词中匹配单词Python

01pennsylvania'不应该匹配为pen是字pennsylvania的一部分。

但是,pensforsale应该匹配为pen不是另一个词的组成部分。我一直在研究NLTK,但我找不到我要找的东西,任何人都可以将我指向正确的方向?我知道不可能为所有字组合做到这一点,但是稍微减少噪音会有很大的帮助。

在此先感谢!

+0

你在哪个平台上运行? – wnnmaw

+0

你说的操作系统是对的? linux –

+0

因此,您需要将空格不足的文本解析为单词*和*,然后找出哪个*意思是“笔”而不是仅包含它? “铅笔”计数?如果一个动物被“注入”了,怎么样? – jonrsharpe

回答

1

您可能会发现这个How to split text without spaces into list of words?有帮助的开始;通过首先尝试将“pensforsale”分成单词列表,然后可以检查可能的变体,如复数等。

这将是一个非常缓慢且容易出错的方法,尽管。