大家。找到长名字实体的核心词
这是问题及其背景。我从网上收集了很多名字实体。有很多长期的术语,所以我希望找到名称实体(或核心词)的常用术语。
例如,
我有字洛杉矶,我想洛杉矶。
或一个非常正式的地名,我想获得它的简称。
有很多的OOV,所以不可能查找字典。
我该如何解决问题?谢谢。
大家。找到长名字实体的核心词
这是问题及其背景。我从网上收集了很多名字实体。有很多长期的术语,所以我希望找到名称实体(或核心词)的常用术语。
例如,
我有字洛杉矶,我想洛杉矶。
或一个非常正式的地名,我想获得它的简称。
有很多的OOV,所以不可能查找字典。
我该如何解决问题?谢谢。
如果案例类似THU =清华大学,我们希望它尽可能准确,那么我认为我们需要依赖现有知识源,因为没有任何算法可以正确猜测所有案例,因为有许多不同的可能性/给定命名实体(例如TU)的替代品。
您可以尝试以下来源: http://acronyms.thefreedictionary.com,或甚至从维基百科我的,寻找括号。
如果你不需要100%的精确度,那么你可以从洛杉矶LA这样的首字母开始,依靠人物的情况。对于清华大学来说,我认为你需要参考汉字作为指导:清 - 清华大学 - 大学 - > THU。
但首字母并不总是所有情况的基础。例如,American Online = AOL
而不仅仅是AO
。您可以使用Google搜索进行一些验证,查询"American Online (AO)"
(包括引文,因为引入缩略词的文本通常是以这种方式编写的),但仅查找没有匹配的链接,但使用查询"American Online (AOL)"
结果进行了几次完全匹配。
你能提供一些例子吗? –
他想要一个缩写词生成器,我想。你尝试了什么,以及你在使用什么语言? –
@arxanas这是中国人。我想算法框架不涉及到语言。也许我可以使用Web资源,查询日志? – David