我在写一个网络爬虫,扫描一组特定的关键字玩耍,然后分配一个全球性的得分遇到基于累积分数我分配给每个关键词的每个域(编程= 1,clojure = 2,javascript = -1等)。优化关键词权重的一个Web爬虫
我已经建立了我的关键词就得分-10至10递加,我已经根据我自己的了解是什么,是不相关的假设,我的初始值。
我觉得我的评分模型可能有缺陷,我更愿意提供符合我试图捕获到分析工具中的标准的域列表,并基于某种统计分析优化我的关键字权重。
什么是适当的分析技术,为“已知良好域”列表生成最优评分模型?这个问题适用于贝叶斯学习,蒙特卡罗模拟还是其他一些技术?
基本上你说你有一个很好的域的例子,你想要找到其他基于它们内容的域名?你也有负面的领域?这似乎是一个典型的监督式学习/文档分类任务,其中您的目标“文档”是来自给定域的文档集合。 –