如何实施社交媒体/网站监控服务？

我想实施某种服务，我的客户可以使用找到他们的公司。博客，论坛 b。 facebook，twitter c。评论网站如何实施社交媒体/网站监控服务？

a。博客，论坛这只能由爬虫完成，对吧？在论坛/博客上寻找robots.txt的爬虫，并且可以阅读论坛/博客的内容（当然还有链接）。但是从哪里开始？我可以使用一组网站开始抓取吗？我必须预先定义它们吗？或者我可以先使用其他搜索引擎吗？例如。在Google上搜索该公司，然后抓取SERP？法律？

b。 facebook，twitter 他们有API，所以帽子不应该是我想的问题。

c。评论网站我看了一些评论网站的服务条款，他们写道，使用自动化软件抓取他们的网站是不允许的。另一方面，与我相关的网站在他们的robots.txt中不被禁止。这里重要吗？

欢迎任何其他提示。

在此先感谢:-)

来源

2011-01-08 nogamawa

老实说，最简单的方式做这将是启动的搜索引擎。他们都有自动搜索的API，因此在您获取客户产品或品牌的链接/提及时，可能会给您带来最高回报。

这不会处理认证背后的事情，只有公共的东西（当然）。但它会给你一个良好的基准开始。从那里，你可以（如果你想）使用API或定制的机器人，这些机器人在网站上获得授权，但老实说，我认为在那一点上，你错过了核心问题。

核心问题“我们在哪里提到？”或者真的是核心问题......“哪些网站获得流量来找我们？”在大多数情况下，后者是后者，在这种情况下，您可以忽略之前所说的全部内容，只需使用Google Analytics或客户端站点上的类似软件来确定流量来自哪里。好吧，所以如果是我们提到过的地方，我仍然会按照规定启动搜索引擎。 Google的api非常简单，它有一个基于SOAP的应用程序，您可以根据需要将其作为Web引用引入; example

回复：评论网站。如果该网站的服务条款说你不能使用自动化机器人，那么最好不要使用自动化机器人。 robots.txt没有法律约束力（这是一种好邻居），所以我不会使用没有排除在外的许可。一些评论网站（更现代的网站）可能会禁止自动抓取他们的网站，但他们仍然可能发布RSS提要或Atom提要，或者有其他一些可以挂钩的API，这是值得检查的。

来源

2011-01-08 15:57:35 Paul

核心问题是“我们在哪里提到过？” – nogamawa 2011-01-08 16:16:11

如何实施社交媒体/网站监控服务？

回答

相关问题