2010-11-10 44 views
5

我有一个关于WordNet数据文件格式的问题。 wndb(5)手册页部分说明:帮助WordNet数据文件格式

source/target字段区分词汇和语义指针。它是一个四字节的字段,包含两个两位十六进制整数。前两位数字表示当前(源)synset中的字数,后两位数字表示目标synset中的字数。值0000表示pointer_symbol表示当前(源)synset与synset_offset指示的目标synset之间的语义关系。

不同同义词中两个词之间的词汇关系由源词和目标词的数字中的非零值表示。该字段的第一个和最后两个字节分别表示源关系和目标同义词中的字数,它们之间的关系成立。字编号被分配到synset中的字段,从左到右,从1开始。

我知道第二段的时候源/目标号码是非零的,但是当源/目标是“0000”仍然不清楚给我。

让我以“贵族”一词为例。所述index.noun条目是:

贵族N + 1 4 @〜#M + 1 0 09807754

和相应data.noun条目是:

09807754 18 N 03贵族0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102〜09840639 n 0000〜09872782 n 0000〜10083823 n 0000〜10175090 n 0000〜10285135 n 0000〜10472799 n 0000〜10474064 n 0000 〜10505732 n 0000〜10506642 n 0000 |贵族

第一 “PTR” 的成员为它是:

@ 09623038Ñ0000

data.noun条目开头:

09623038 18 n 01领导者0 058 @ 00007846 n 0000 ...

我不清楚这个关系是用于哪个单词的。上限(“@”)关系是否仅针对目标synset中的所有单词(在这种情况下,仅存在“领导者”)的原始单词(“aristrocrat”)?

或者,对于synset中的所有单词(“aristocrat”,“blue blood”和“patrician”),该关系是否适用于目标synset中的所有单词?

回答

1

该关系确实适用于源同义词集中的所有词对目标同义词集中的所有词的

这并不意味着领导者永远是贵族的上位词,但它对于被认为是贵族(贵族成员)的意义以及被认为是领导者的意义(一个统治或指导或激励他人的人)。有些关系听起来很奇怪,但WordNet并不完美,不可能。