2012-08-23 18 views
0

大家。找到长名字实体的核心词

这是问题及其背景。我从网上收集了很多名字实体。有很多长期的术语,所以我希望找到名称实体(或核心词)的常用术语。

例如,

我有字洛杉矶,我想洛杉矶。

或一个非常正式的地名,我想获得它的简称。

有很多的OOV,所以不可能查找字典。

我该如何解决问题?谢谢。

+2

你能提供一些例子吗? –

+0

他想要一个缩写词生成器,我想。你尝试了什么,以及你在使用什么语言? –

+0

@arxanas这是中国人。我想算法框架不涉及到语言。也许我可以使用Web资源,查询日志? – David

回答

0

如果案例类似THU =清华大学,我们希望它尽可能准确,那么我认为我们需要依赖现有知识源,因为没有任何算法可以正确猜测所有案例,因为有许多不同的可能性/给定命名实体(例如TU)的替代品。

您可以尝试以下来源: http://acronyms.thefreedictionary.com,或甚至从维基百科我的,寻找括号。

如果你不需要100%的精确度,那么你可以从洛杉矶LA这样的首字母开始,依靠人物的情况。对于清华大学来说,我认为你需要参考汉字作为指导:清 - 清华大学 - 大学 - > THU。

但首字母并不总是所有情况的基础。例如,American Online = AOL而不仅仅是AO。您可以使用Google搜索进行一些验证,查询"American Online (AO)"(包括引文,因为引入缩略词的文本通常是以这种方式编写的),但仅查找没有匹配的链接,但使用查询"American Online (AOL)"结果进行了几次完全匹配。