2012-10-14 64 views
6

我必须实现水平马尔可夫化(NLP概念),并且我在理解树的外观时会遇到一些麻烦。我一直在阅读Klein and Manning paper,但他们没有解释第2阶或第3阶水平马尔可夫化的树会是什么样子。有人能够对算法和树木被支撑的样子有所了解吗?我对NLP比较陌生。水平马尔可夫化

回答

10

所以,让我们说你有一堆像平板规则:

NP 
    NNP 
    NNP 
    NNP 
    NNP 

VP 
    V 
    Det 
    NP 

当二值化,这些要保持上下文(即这是不是只是一个Det,但特别是一个Det跟随一个动词作为VP的一部分)。要做到这一点,你正常使用注释是这样的:

NP 
    NNP 
    NP->NNP 
     NNP 
     NP->NNP->NNP 
      NNP 
      NP->NNP->NNP->NNP 
       NNP 

VP 
    V 
    VP->V 
     Det 
     VP->V->Det 
      NP 

需要二值化树,但这些注释并不总是非常有意义的。它们对于动词短语的例子可能有点意义,但是你真正关心的另一个例子是名词短语可以是一串相当长的专有名词(例如“Peter B. Lewis Building”或“Hope Memorial Bridge Project”周年”)。因此,通过水平马尔可夫化,您可以稍微折叠一些注释,丢弃一些上下文。马尔可夫化的顺序是你要保留的上下文的数量。因此,对于正常的注释,您基本上处于无限次序:选择保留所有上下文并且不进行任何折叠。

订购0意味着你要放弃所有的背景下,你会得到一棵树没有花俏的注释,像这样:

NP 
    NNP 
    NNP 
     NNP 
     NNP 
      NNP 
      NNP 
       NNP 

订购1意味着你将只保留一个上下文的期限和你会得到一棵树是这样的:

NP 
    NNP 
    NP->...NNP **one term: NP->** 
     NNP 
     NP->...NNP **one term: NP->** 
      NNP 
      NP->...NNP **one term: NP->** 
       NNP 

订购2意味着你将保持关联的两个词,你会得到这样的树:

NP 
    NNP 
    NP->NNP **two terms: NP->NNP** 
     NNP 
     NP->NNP->...NNP **two terms: NP->NNP->** 
      NNP 
      NP->NNP->...NNP **two terms: NP->NNP->** 
       NNP 
+1

你的h = 0不正确。 – user3639557

+0

随意提供不同的答案。 – FoolishSeth

0

我相信这个想法是在估计规则概率时考虑垂直马尔可夫化和同胞节点的父节点,并且顺序表示它们中包含了多少个节点。父母注释here有一张不错的图片。

此外,从http://www.timothytliu.com/files/NLPAssignment5.pdf报价:

接近词汇化,增加更多的信息到每个树的父 节点。这正确区分不同的 附件以及是否向左分支或向右分支。 水平马尔可夫化是通过在树被二元化时跟踪兄弟姐妹 来完成的。垂直马尔可夫化由 完成,以跟踪树中节点的父节点。这些创建新的 依赖项,因为现在规则是深度和宽度的组合。