我有许多句子的文本语料库,其中标记了一些命名实体。 例如,这句话:使用类放大文本语料库
威奇托德州最好的餐厅是什么?
其中被标记为:
是什么<location>
最好的餐馆?
我想扩展这个语料库,通过取样或抽样已经存在的所有句子,并用相同类型的其他类似实体(例如,将“wichita texas”替换为“new york”,所以语料库将会变得更大(更多句子)并且更完整(其中的实体的数量)。我列出了类似的实体,包括没有出现在语料库中的实体,但我希望有一些可能性将它们插入我的替代品中。
你能推荐一种方法,或者直接给我一篇关于这方面的论文吗?