我正在培训生物医学文本中的word2vec。为了执行单词相似性和单词类比测试,我希望有一对具有相同关系的生物医学术语(可以是任何),就像我们在word2vec中有一个完整的City-State数据列表。我试图搜索网络,但由于我是新手,我发现它很混乱。Biodomain中的数据集,如word2vec和Glove中使用的Word相似性数据集
那么,我在哪里可以找到与药物基因或蛋白质作用等有关的列表?或者我怎样才能挖掘这些数据。请建议公开可用的数据集。另外,请建议我还可以查询的其他有趣关系。
另一种方式是使用可用的本体,因为它们包括概念之间的关系,例如,有部分,是一种方式,是一种原因,是一种症状等等我可以使用本体来提取这些对吗?如果是,那么什么是本体论和如何?
是否有任何可用于我的目的的金标准数据集?