2015-05-10 59 views
0

我在一个文本文件中有一组url。对于该文本文件中的每个网址,我想标记包含在该网址中的文本中的实体和关系。用于关系抽取的注释器

我知道像斯坦福NER,NLTK和GATE这样的实体标记,它可以执行实体标记。不过,我更关心关系抽取。

为了提取关系,我正在考虑注释包含在这些URL中的文本以进行培训。为此,我不想做手动注释。我可以写出很少的正则表达式来提取我想要的关系,但是这将很难放大。

有没有一种工具可以指定我想要注释的内容?

例如:

“罗布工作作为ABC主任组织他从 XYZ大学毕业。”

在这里,我想提取隶属关系关系,所以直观地我想注释描述如工作,毕业附属关系的单词。通过“文本文件中的一组URL”,我的意思是我在该文本文件中有大约200个链接指向特定的网页,每个网页都包含一些文本。我想分析(注释)该文本。

+0

你说的“URL集的平均在一个文本文件“?你能举个例子吗?请指定您的答案... –

+0

编辑“一组网址”的定义。请看一看。 – Viper

回答

1

GATE中没有PR将为您配对参数并创建实例 。因此,您必须创建与您的问题相关的实例。

您可以:

  • 编写自定义PR
  • 或写一些戏言与Java RHS

你可以在训练和测试数据集可能分裂的语料库。

您可以利用这些关系Extration栅的培训课程,包含了所有你需要:

+0

谢谢。确实有帮助。 – Viper

+0

我正在尝试为关系提取编写基于引导的方法。我遇到了Snowball,DIPRE和KnowItAll。我在那里工作,我认为这将是相关的在这种情况下。 – Viper