2014-03-25 16 views
1

我在写一个网络爬虫,扫描一组特定的关键字玩耍,然后分配一个全球性的得分遇到基于累积分数我分配给每个关键词的每个域(编程= 1,clojure = 2,javascript = -1等)。优化关键词权重的一个Web爬虫

我已经建立了我的关键词就得分-10至10递加,我已经根据我自己的了解是什么,是不相关的假设,我的初始值。

我觉得我的评分模型可能有缺陷,我更愿意提供符合我试图捕获到分析工具中的标准的域列表,并基于某种统计分析优化我的关键字权重。

什么是适当的分析技术,为“已知良好域”列表生成最优评分模型?这个问题适用于贝叶斯学习,蒙特卡罗模拟还是其他一些技术?

+0

基本上你说你有一个很好的域的例子,你想要找到其他基于它们内容的域名?你也有负面的领域?这似乎是一个典型的监督式学习/文档分类任务,其中您的目标“文档”是来自给定域的文档集合。 –

回答

1

因此,给定一组相关和不相关域的训练集,您希望构建一个将新域分类到这些类别之一的模型。我假定您将使用的功能是出现在域中的术语,即,这可以被定义为document classification问题。

一般情况下,你是在假设让基于统计的机器学习算法做了“得分王”为你工作,而不是关键字手动分配好成绩正确。

解决这个问题的一个简单方法是使用贝叶斯学习,特别是朴素贝叶斯可能是一个很好的选择。

生成要从已经手动标记(例如收集从每个域几页和每个处理作为一个文件)的结构域的数据集之后,可以使用机器学习框架之一实验的各种算法,例如WEKA

有关如何处理和加载文本文件到WEKA的入门知识可以在here找到。在加载数据之后,可以使用该框架来尝试各种分类算法,例如,朴素贝叶斯,SVM等等。一旦找到最适合您需求的方法,您可以导出结果模型并通过WEKA的Java API使用它。

+0

谢谢。这为我攻击得分问题提供了一个很好的起点。 – tmountain