2017-04-26 28 views
0

所以这可能是一个业余爱好者的问题,但有没有办法使用nltk从文本(或列表中的同义词)删除同义词?
通过同义词我也意味着有不同的写法一样同样的话:
70年代和70年代和70_s
或狗和猎犬
我真的很感激一些一般性的指导线或指向我的教程(我无法找到任何) 。
在此先感谢从文本中删除同义词使用nltk

+2

1 - 要获取同义词,请使用wordnet.synsets获取同义词集。 2 - 为了得到不同的文字,清理数据(删除标点符号和词干。当你干,运行和运行都将转换为运行) – lordingtar

+0

我会尝试。谢谢 –

+1

在你的问题中,你有两个非常不同和不相关的任务;你是否还试图将“上周日”和“2017/4/23”作为同一日期?如果你说明了你想达到的目标,这将大有帮助。 另外,关于@lordingtar答案,应该警告一个词可以在多个Wordnet sysnsets中,即使在你已经确定了它的词性之后,例如,检查名词“pen”(这个问题被称为词义消歧) 。 –

回答

0

我设法删除重复的项目使用wordnet.synsets获取同义词,然后只是遍历列表中删除重复。我确信有更复杂的方法比遍历列表,但它对我来说工作得很好。