2010-10-15 32 views
1

我一直在思考这一段时间,所以我想我会要求建议:算法:确定主页的类型?

我有一些履带其进入一些网站的根目录(可能是从www.StackOverFlow.com,WWW什么。有些个人网站,甚至www.Facebook.com)。然后,我需要determin“主页的那种”什么,我参观。不同的类型可以是例如:

  • 论坛
  • 博客
  • 链接目录
  • 社交媒体网站
  • 新闻网站
  • “一人网站”

我一直在集思广益一会儿,而且最好解决方案似乎是一个启发式的点系统。我的意思是不同的趋势给不同的类型提供了一些意见,然后程序在之后进行猜测。

但是,这是我卡住的地方..你如何检测趋势?

  • 目录可能很简单:如果sitesIndexed/Outgoing链接非常高,目录应该得到几个点。
  • 新闻网站/博客可以很容易:如果索引的网站高量有日期时间,这些类型应该得到几个点..

但我真的不能找到太多的趋势。

SO:我的问题是: 有关如何做到这一点的任何想法?

感谢这么多..

+4

解决方案可能是企业的基础。这可能不是一个简单的问题来完善这样的算法 – 2010-10-15 11:48:36

+0

阅读一本关于机器学习/数据挖掘的好书。 – 2010-10-15 12:18:06

+0

使用人类 - 亚马逊机械土耳其使得它真的很便宜的大量这样的。 – 2010-10-15 19:15:16

回答

0

你可以训练neural network识别它们。给它链接的数量/类型,也可以是HTML标签的类型。

我认为,否则你只是第二次猜测是什么让一个网站是什么。

+0

是的 - 我昨天开始建立一个神经网络。这是一个好主意。 你会给它像1000个网站和类型作为输入,使它从中学习..然后给它1000多..直到它已经学到足够了? – 2010-10-15 11:57:39

+0

我认为你只需要继续训练,直到你有可接受的误报数量。 – Skilldrick 2010-10-15 12:37:16

+0

良好的机器学习实践是将您的数据划分为训练和测试集(以及更适合的开发集),以防止过度配合。 – 2010-10-15 12:57:23

3

我相信你正在尝试文档分类,这是一个深入研究的主题。

http://en.wikipedia.org/wiki/Document_classification

你会看到许多不同的方法相当的名单。但是在确定“趋势”之前,建议其中的任何一个(或神经网络或类似的),因为你称之为“趋势”是提早建议它。我会建议寻找“网页文档分类”等。它显然是文档分类的一个重要子集,如果你有机会获得学术期刊,那么有很多不可理解的文章可供你享受。

我也发现你的想法是一项家庭作业 - 也许如果你特别大胆,你可以联系教授。 http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

最后,我认为,这是一个可访问(如格式化奇怪)网站,有一个一般的,也许过时的讨论: http://www.webology.ir/2008/v5n1/a52.html

我怕我没有的很多个人知识主题,所以我能做的最多的是告诉你关键词“文档分类”,并提供一些快速的谷歌搜索。但是,如果我想玩这个概念,我认为只是寻找某些关键字的比率是一个体面的开始“趋势”。 (“销售”或“购买”或“客户”是购物网站的趋势,“我的”,“意见”,“博客评论”等)

+0

谢谢! :-)真的很好!帮助了很多... – 2010-11-16 13:28:13