2014-03-27 92 views
0

我需要对大量文档进行分类。我见过许多经典的机器学习算法用于分类。但突然间,我问自己,我们可以使用搜索引擎来做到这一点吗?是否有可能利用搜索引擎进行分类?

我粗略的想法是:

我们有标记的文件几个文件夹,如:

  • 文件夹1 = 1类
  • 文件夹2 = 2类
  • ...

然后,对于每个未标记的文档,我们使用它作为标准并让搜索引擎搜索每个文件夹,而返回结果最多的文件夹应该是目标类别。

我不确定这是否可行。我不知道如何为一组文档创建搜索引擎,Bing或Google可以自定义它吗?还是我需要用Lucene或其他东西来构建一个?

+0

我认为真正的问题是,为什么?使用搜索引擎并不会更容易,但它不会更准确(我猜可能有点不太准确),因为搜索和分类可以优化不同的度量标准......所以,尽管您可以,但您为什么要? –

+0

我不确定这是否不准确。我只想从第二个角度解决分类问题。如果有一个开箱即用的工具箱,它可以为我节省一些工作量。 – smwikipedia

+0

我保证你会比最基本的分类器更准确。文本分类是NLP机器学习中最基本的问题,大多数工具包都会有一个可以运行的10行演示。我只是不相信使用分类库(scikit-learn,nltk,mallet,weka等)来调整搜索引擎进行分类的努力会少一些, –

回答

0

是的,搜索引擎存储了大部分需要做文本分类的信息,因此您可以在其上创建一些算法。

对于Lucene/Solr,请看this commiter所做的工作。该代码已经在Solr/Lucene 4.6中可用。我已经在一次使用它并取得了良好的效果。

相关问题