5

在我看来,Parsey在正确标记问题和任何带有“is”的句子中存在严重问题。Parsey McParseface在问题上错误地识别根


文字:奥巴马来自夏威夷吗?

GCloud令牌(正确):

  • 为 - [根] VERB
  • 营房 - [NN] NOUN
  • 奥巴马 - [nsubj] NOUN
  • 从 - [ADP] PREP
  • 夏威夷 - [pobj] NOUN

Parsey令牌(错误):

  • 为 - [警察] VERB
  • 营房 - [nsubj] NOUN
  • 奥巴马 - [根] NOUN
  • 从 - [ADP] PREP
  • 夏威夷 - [pobj]名词

Parsey决定让名词(!)奥巴马成为根,这会弄乱一切。


文本:我的名字是菲利普

GCloud令牌(正确):

  • 我的[POSS] PRON
  • 名称[nsubj] NOUN
  • 是[根] VERB
  • Philipp [attr] NOUN

ParseyTokens(不正确的):

  • 我的[POSS] PRON
  • 名称[nsubj] NOUN
  • 是[COP] VERB
  • 菲利普[根] NOUN

parsey再次选择NOUN作为根,并与COP一起奋斗。


任何想法,为什么发生这种情况,我该如何解决它?

感谢, 菲尔

+0

从来没有使用过Tensorflow,但标题本身值得upvote ^^ –

回答

0

我有资格我的回答:我有限的Parsey McParseface的知识。但是,由于没有其他人回答,我希望我能增加一些价值。

我认为大多数机器学习模型的一个主要问题是缺乏可解释性。这与你的第一个问题有关:“为什么会发生这种情况?”这很难说,因为这个工具是建立在“黑盒子”模型上的,即神经网络。鉴于strong claims made about Parsey,我会说这似乎是非常令人惊讶的,像'是'这样的常见词汇一直在欺骗它。你有可能犯了一些错误吗?没有代码示例很难说。

我假设你没有犯过错,在这种情况下,我认为你可以利用你的观察结果来解决这个问题(或者减轻它),因为'is'这个词似乎把模型抛弃了。在这种情况下,您可以简单地检查相关句子中的单词'is'并使用GCloud(或其他解析器)。方便地,一旦你同时使用了,你可以使用GCloud作为Parsey似乎失败的其他情况的后备,如果你将来找到它们的话。

至于改善基础模型,如果您足够关心,您可以使用original paper重新创建它,也许可以根据您的情况优化培训。

1

关于第一个例子,看起来Parsey的训练数据相当陈旧,甚至没有提及任何“Barack”这个词。 如果你将贝拉克奥巴马换成比尔克林顿,你会得到一个正确的解析。

Input: Is Bill Clinton from Hawaii ? Parse: Is VBZ ROOT +-- Clinton NNP nsubj | +-- Bill NNP nn +-- from IN prep | +-- Hawaii NNP pobj +-- ? . punct

第二个例子是代替正确地根据斯坦福依赖关系解析(参照http://nlp.stanford.edu/software/dependencies_manual.pdf“系词动词的处理”)。

Input: My name is Philip Parse: Philip NNP ROOT +-- name NN nsubj | +-- My PRP$ poss +-- is VBZ cop

0

由于正确标记奥巴马为2个名词,我不认为它与名字不熟悉的问题。我认为Parsey禁止使用“is”作为根。

在理论依存语法中,名词从来不是完整句子的根。然而,帕西却不遵循理论;它非常喜欢将内容单词变为头脑。我认为它已经决定,当你说“X是Y”时,句子的头部应该是“X”而不是“is”,因为“is”不是一个提供信息的词。

......除了比尔克林顿的例子,这可能证明我错了!我还没有让Parsey在我自己的电脑上工作,所以我不确定。