如何正常化Weka文档的词频率

在Weka中，类StringToWordVector定义了一种称为setNormalizeDocLength的方法。它规范了文档的词频。我的问题是：如何正常化Weka文档的词频率

“正常化文档的词频”是什么意思？
Weka如何做到这一点？

一个实际的例子会帮助我。提前致谢。

2012-08-28 vignesh kumar rathakumar

寻找另外WEKA源，这是做归一化的方法：

private void normalizeInstance(Instance inst, int firstCopy) throws Exception 
{ 
    double docLength = 0; 

    if (m_AvgDocLength < 0) 
    { 
     throw new Exception("Average document length not set."); 
    } 

    // Compute length of document vector 
    for(int j=0; j<inst.numValues(); j++) 
    { 
     if(inst.index(j)>=firstCopy) 
     { 
      docLength += inst.valueSparse(j) * inst.valueSparse(j); 
     } 
    }  
    docLength = Math.sqrt(docLength); 

    // Normalize document vector 
    for(int j=0; j<inst.numValues(); j++) 
    { 
     if(inst.index(j)>=firstCopy) 
     { 
      double val = inst.valueSparse(j) * m_AvgDocLength/docLength; 
      inst.setValueSparse(j, val); 
      if (val == 0) 
      { 
       System.err.println("setting value "+inst.index(j)+" to zero."); 
       j--; 
      } 
     } 
    } 
}

它看起来像最相关的部分是

double val = inst.valueSparse(j) * m_AvgDocLength/docLength; 
inst.setValueSparse(j, val);

所以看起来正常化是value = currentValue * averageDocumentLength/actualDocumentLength。

来源

2012-08-28 09:49:32

如何正常化Weka文档的词频率

回答

相关问题