我一直在思考这一段时间,所以我想我会要求建议:算法:确定主页的类型?
我有一些履带其进入一些网站的根目录(可能是从www.StackOverFlow.com,WWW什么。有些个人网站,甚至www.Facebook.com)。然后,我需要determin“主页的那种”什么,我参观。不同的类型可以是例如:
- 论坛
- 博客
- 链接目录
- 社交媒体网站
- 新闻网站
- “一人网站”
我一直在集思广益一会儿,而且最好解决方案似乎是一个启发式的点系统。我的意思是不同的趋势给不同的类型提供了一些意见,然后程序在之后进行猜测。
但是,这是我卡住的地方..你如何检测趋势?
- 目录可能很简单:如果sitesIndexed/Outgoing链接非常高,目录应该得到几个点。
- 新闻网站/博客可以很容易:如果索引的网站高量有日期时间,这些类型应该得到几个点..
但我真的不能找到太多的趋势。
SO:我的问题是: 有关如何做到这一点的任何想法?
感谢这么多..
解决方案可能是企业的基础。这可能不是一个简单的问题来完善这样的算法 – 2010-10-15 11:48:36
阅读一本关于机器学习/数据挖掘的好书。 – 2010-10-15 12:18:06
使用人类 - 亚马逊机械土耳其使得它真的很便宜的大量这样的。 – 2010-10-15 19:15:16