我想应用词形化来减少单词的屈折形式。我知道对于英语语言来说,WordNet提供了这样的功能,但我也有兴趣应用荷兰语,法语,西班牙语和意大利语单词的词形。有没有可靠的和可靠的方法去解决这个问题?谢谢!非英语单词的词形化?
回答
尝试pattern
从CLIPS库,他们支持德语,英语,西班牙语,法语和意大利语。正是你需要的:http://www.clips.ua.ac.be/pattern
不幸的是,它只适用于Python 2,不支持Python3提供。
谢谢,这很完美!正是我在找的! – Crista23
textacy库http://textacy.readthedocs.io/en/latest/api_reference.html提供了一些必要的工具,用于构建包含作为其选项一部分的词形变化的词汇或术语包。我用西班牙语尝试过,效果相当不错。
doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True)
该库会自动检查您正在写入的语言并据此进行lemmatize。但是,您也可以在此处指定它。
import textacy
text = 'Los gatos y los perros juegan juntos en el patio de su casa'
doc = textacy.Doc(text, lang='es')
print(doc.to_bag_of_words(normalize='lemma', as_strings=True))
你会得到一个输出为以下 { '佩罗':1, 'Y':1, '小鲨鱼':1, 'JUGAR':1, 'CASAR':1,“洛杉矶':1,'庭院':1}
图书馆很好地认识了一些词,然而,这些词并没有完全被认出。希望这可以帮助。
如果您更多地解释了该库如何用于非英语语言并显示一些示例输出,它将会很有用。 – vpekar
- 1. 删除python中的非英语单词
- 2. NLP - 英语形态词典
- 3. 在线词典的英语单词MySQL
- 4. 如何替换英文单词与非英语单词(UTF-8)交错
- 5. 自然英语单词
- 6. 英语单词分类
- 7. 使用`textcat`过滤掉语料库中的非英语单词
- 8. 单词列表的词形化
- 9. 如何优化词表的英语
- 10. PHP英语词典
- 11. 在python中,提取非英文单词
- 12. placehold.it打印非英文单词
- 13. 忽略获取索引的非英语单词
- 14. 任何用于阻止非英语单词的Java函数?
- 15. Android应用程序中的非英语单词
- 16. 来源迭代通过英语词典的所有单词
- 17. 用于Windows Phone 7的英语单词词典数据库
- 18. 列车数据的同义词单词英语与opennlp
- 19. PyEnchant:用英语单词替换互联网友好的词
- 20. 寻找英语单词有着各自不同的形式
- 21. 如何拼写出英语单词
- 22. 检查单词是否是英语Python
- 23. 如何在Java中获得非英语单词?
- 24. 从MATLAB辞典中删除非英语单词
- 25. 提取非内容英语单词字符串 - python
- 26. 动词/名词/形容词形式之间的单词转换
- 27. 将美式英文单词转换为英式单词
- 28. 英语译成英语词汇表,含单行含义
- 29. 使用Lucene 6词干英语单词6
- 30. 英文单词和句子词典
参见https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA
所引述的问题的答复讨论法国词干而不是lemmatizers – duhaime
我必须寻找同样的事情,但对于意大利 –