我在一个文本文件中有一组url。对于该文本文件中的每个网址,我想标记包含在该网址中的文本中的实体和关系。用于关系抽取的注释器
我知道像斯坦福NER,NLTK和GATE这样的实体标记,它可以执行实体标记。不过,我更关心关系抽取。
为了提取关系,我正在考虑注释包含在这些URL中的文本以进行培训。为此,我不想做手动注释。我可以写出很少的正则表达式来提取我想要的关系,但是这将很难放大。
有没有一种工具可以指定我想要注释的内容?
例如:
“罗布工作作为ABC主任组织他从 XYZ大学毕业。”
在这里,我想提取隶属关系关系,所以直观地我想注释描述如工作,毕业附属关系的单词。通过“文本文件中的一组URL”,我的意思是我在该文本文件中有大约200个链接指向特定的网页,每个网页都包含一些文本。我想分析(注释)该文本。
你说的“URL集的平均在一个文本文件“?你能举个例子吗?请指定您的答案... –
编辑“一组网址”的定义。请看一看。 – Viper