2008-10-03 44 views
2

这里提出的许多问题都与我正在做的研究有关。这些问题和答案分布广泛,并不总是很容易找到,做手动浏览,有时在无关的主题中也会出现有见地的答案或评论。网站挖掘工具

我想自动找到这些相关的Q's & A,根据关键词集合,然后使用这些信息作为进一步深入研究的指针。

我可以使用哪些工具,最好是开源的,可以用于这种类型的网站挖掘?我不是一个web大师&我尝试开发他们需要很长的时间,并在时间,我可以在我的[R花& D.

影响

回答

1

从你的问题来看,你是否是程序员并不清楚,所以我不确定你是否在应用程序或服务的意义上使用了你想要的工具,或者库,使网站挖掘更容易。

如果后者是这种情况,你使用红宝石,我可以彻底推荐WWW::Mechanize。它提供了一个很好的API用于编写脚本来搜索网页(通过DOM或文本),跟随链接并填写表单。我已经多次使用它来组织在网站内的多个网页上传播的信息。

我相信红宝石版本是基于早期的library for perl,但我不能担保perl版本,我没有使用它。

0

人类互动的工具可能是在这种情况下有用的(没有发展成本,可能是更一致的结果,以及不断变化的要求)。

夫妇想到:

+0

(我一直认为为他人做网络挖掘将是一个可能的商业呼叫)。我是一个单独的私人,没有资金来支付他人这样做;对我而言,这是艰难的或不行的。 :-( – slashmais 2008-10-03 06:29:53

0

所有基于关键字的标签都附有RSS源,所以我会先订阅相关关键字并搜索数据。这似乎是找到相关概念和其他相关关键字的最简单方法。

+0

我发现的大部分相关信息都与问题上的标签无关;它们是答案文本中的关键字。 – slashmais 2008-10-03 06:32:57

1

另一种选择是使用Yahoo! Pipes。 (demo

您可以使用供稿网址,过滤器等的组合来在线可视化地构建这样的系统...与编程相比,学习时间是最小的。 [编辑:时态]

+0

_Sounds_ cool - 不幸似乎不太好?http://www.jumpcut .com/view /?id = 594F555C568011DC9D24000423CEF5B0 - 看起来像死亡:黑色没有声音 – slashmais 2008-10-03 06:42:07

+0

Youtube是你的朋友 试试这个 - http://www.youtube.com/watch?v=d3h6ROs__II – tamersalama 2008-10-03 15:26:07