0
我需要对大量文档进行分类。我见过许多经典的机器学习算法用于分类。但突然间,我问自己,我们可以使用搜索引擎来做到这一点吗?是否有可能利用搜索引擎进行分类?
我粗略的想法是:
我们有标记的文件几个文件夹,如:
- 文件夹1 = 1类
- 文件夹2 = 2类
- ...
然后,对于每个未标记的文档,我们使用它作为标准并让搜索引擎搜索每个文件夹,而返回结果最多的文件夹应该是目标类别。
我不确定这是否可行。我不知道如何为一组文档创建搜索引擎,Bing或Google可以自定义它吗?还是我需要用Lucene或其他东西来构建一个?
我认为真正的问题是,为什么?使用搜索引擎并不会更容易,但它不会更准确(我猜可能有点不太准确),因为搜索和分类可以优化不同的度量标准......所以,尽管您可以,但您为什么要? –
我不确定这是否不准确。我只想从第二个角度解决分类问题。如果有一个开箱即用的工具箱,它可以为我节省一些工作量。 – smwikipedia
我保证你会比最基本的分类器更准确。文本分类是NLP机器学习中最基本的问题,大多数工具包都会有一个可以运行的10行演示。我只是不相信使用分类库(scikit-learn,nltk,mallet,weka等)来调整搜索引擎进行分类的努力会少一些, –