2014-04-08 96 views
0

我有许多句子的文本语料库,其中标记了一些命名实体。 例如,这句话:使用类放大文本语料库

威奇托德州最好的餐厅是什么?

其中被标记为:

是什么<location>最好的餐馆?

我想扩展这个语料库,通过取样或抽样已经存在的所有句子,并用相同类型的其他类似实体(例如,将“wichita texas”替换为“new york”,所以语料库将会变得更大(更多句子)并且更完整(其中的实体的数量)。我列出了类似的实体,包括没有出现在语料库中的实体,但我希望有一些可能性将它们插入我的替代品中。

你能推荐一种方法,或者直接给我一篇关于这方面的论文吗?

回答

1

为您的具体问题: 这种类型的工作,假设你有一个名为实体的组织名单(像“地”,“人”,等的单独列表),一般分为手动删除潜在的暧昧名称(例如,“球衣”可能会从您的名单中删除,以避免它指的是服装)。一旦您确信删除了最不明确的名称,只需为每组术语(例如“位置”或“人物”)选择适当的标签即可。在包含这些单词之一的每个句子中,用该标签替换该单词。然后,您可以使用您选择的编程语言进行一些基本扩展,以便每个地点名称都重复包含“位置”的每个句子,每个包含“人物”的句子会随每个人名称重复,等等。

对于关于使用词类进行聚类的总体概述,请查看开创性的Brown et al。人。纸:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf

相关问题