2010-07-06 122 views
0

我正在尝试使用OpenAmplifyAPI来评估URI的内容。关键是要提出与文章真正相关的主题。不幸的是,专题分析,我又回到是:评估“值”属性

  1. 巨大,
  2. 多样化

无论质量是什么,我试图做的非常有用的,因为信噪比正在严重倾向于噪音。我正在分析网页内容,因此涉及一定量(可能是大量)不相关的内容(广告等)。我明白了。尽管如此,许多正在返回的主题要么是无用的(完全不是非感性的,甚至不是单词),不相关的(例如,从哪里来的?),要么太细致,不能提供任何意义或洞察力。我大概可以使用,um,为每个域,子域,主题等返回的值过滤掉大部分噪声,但我并不知道它的含义。

当然我明白,它是衡量“文字中突出显示的单词”的数字,但数字本身完全是任意的,这样我就可以阻止我说“忽略任何与价值低于50“,并具有真正的意义。

是否有任何范围标准可以帮助我理解如何使用主题的值分数作为过滤阈值?或者,我还有另一个领域应该用于这种过滤吗?

感谢您的帮助。

回答

0

从其他渠道,我知道value属性不能按我希望的方式进行评估。对于不同的信号,它意味着不同的事物,并且没有一个以这种对于这种需求有意义的方式来定义。