2011-01-08 42 views
1

我想实施某种服务,我的客户可以使用 找到他们的公司。博客,论坛 b。 facebook,twitter c。评论网站如何实施社交媒体/网站监控服务?

a。博客,论坛 这只能由爬虫完成,对吧?在论坛/博客上寻找robots.txt的爬虫,并且可以阅读论坛/博客的内容(当然还有链接)。 但是从哪里开始?我可以使用一组网站开始抓取吗?我必须预先定义它们吗?或者我可以先使用其他搜索引擎吗?例如。在Google上搜索该公司,然后抓取SERP?法律?

b。 facebook,twitter 他们有API,所以帽子不应该是我想的问题。

c。评论网站 我看了一些评论网站的服务条款,他们写道,使用自动化软件抓取他们的网站是不允许​​的。另一方面,与我相关的网站在他们的robots.txt中不被禁止。这里重要吗?

欢迎任何其他提示。

在此先感谢:-)

回答

1

老实说,最简单的方式做这将是启动的搜索引擎。他们都有自动搜索的API,因此在您获取客户产品或品牌的链接/提及时,可能会给您带来最高回报。

这不会处理认证背后的事情,只有公共的东西(当然)。但它会给你一个良好的基准开始。从那里,你可以(如果你想)使用API​​或定制的机器人,这些机器人在网站上获得授权,但老实说,我认为在那一点上,你错过了核心问题。

核心问题“我们在哪里提到?”或者真的是核心问题......“哪些网站获得流量来找我们?”在大多数情况下,后者是后者,在这种情况下,您可以忽略之前所说的全部内容,只需使用Google Analytics或客户端站点上的类似软件来确定流量来自哪里。好吧,所以如果是我们提到过的地方,我仍然会按照规定启动搜索引擎。 Google的api非常简单,它有一个基于SOAP的应用程序,您可以根据需要将其作为Web引用引入; example

回复:评论网站。如果该网站的服务条款说你不能使用自动化机器人,那么最好不要使用自动化机器人。 robots.txt没有法律约束力(这是一种好邻居),所以我不会使用没有排除在外的许可。一些评论网站(更现代的网站)可能会禁止自动抓取他们的网站,但他们仍然可能发布RSS提要或Atom提要,或者有其他一些可以挂钩的API,这是值得检查的。

+0

核心问题是“我们在哪里提到过?” – nogamawa 2011-01-08 16:16:11