使用类放大文本语料库

我有许多句子的文本语料库，其中标记了一些命名实体。例如，这句话：使用类放大文本语料库

威奇托德州最好的餐厅是什么？

其中被标记为：

是什么<location>最好的餐馆？

我想扩展这个语料库，通过取样或抽样已经存在的所有句子，并用相同类型的其他类似实体（例如，将“wichita texas”替换为“new york”，所以语料库将会变得更大（更多句子）并且更完整（其中的实体的数量）。我列出了类似的实体，包括没有出现在语料库中的实体，但我希望有一些可能性将它们插入我的替代品中。

你能推荐一种方法，或者直接给我一篇关于这方面的论文吗？

来源

2014-04-08 Beka

为您的具体问题： 这种类型的工作，假设你有一个名为实体的组织名单（像“地”，“人”，等的单独列表），一般分为手动删除潜在的暧昧名称（例如，“球衣”可能会从您的名单中删除，以避免它指的是服装）。一旦您确信删除了最不明确的名称，只需为每组术语（例如“位置”或“人物”）选择适当的标签即可。在包含这些单词之一的每个句子中，用该标签替换该单词。然后，您可以使用您选择的编程语言进行一些基本扩展，以便每个地点名称都重复包含“位置”的每个句子，每个包含“人物”的句子会随每个人名称重复，等等。

对于关于使用词类进行聚类的总体概述，请查看开创性的Brown et al。人。纸：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf

来源

2014-06-07 09:03:59 Lgiro

使用类放大文本语料库

回答

相关问题