2016-06-21 18 views
1

我正在培训生物医学文本中的word2vec。为了执行单词相似性和单词类比测试,我希望有一对具有相同关系的生物医学术语(可以是任何),就像我们在word2vec中有一个完整的City-State数据列表。我试图搜索网络,但由于我是新手,我发现它很混乱。Biodomain中的数据集,如word2vec和Glove中使用的Word相似性数据集

那么,我在哪里可以找到与药物基因或蛋白质作用等有关的列表?或者我怎样才能挖掘这些数据。请建议公开可用的数据集。另外,请建议我还可以查询的其他有趣关系。

另一种方式是使用可用的本体,因为它们包括概念之间的关系,例如,有部分,是一种方式,是一种原因,是一种症状等等我可以使用本体来提取这些对吗?如果是,那么什么是本体论和如何?

是否有任何可用于我的目的的金标准数据集?

回答

1

那么,我在哪里可以找到与药物基因或蛋白质作用相关的列表, 等?

查看ChEMBL,例如aspirin被链接到其目标cyclooxygenase

另一种方式是因为它们包含的概念,如具有部分之间 关系,利用现有的本体,是-A-方式 - 的 - 这样做, 是-A-原因-of,is-a-symptom-of等。我可以使用本体来提取 这样的对吗?如果是,那么什么是本体论和如何?

一个好的开始是ChEBI ontology

相关问题