我想实施某种服务,我的客户可以使用 找到他们的公司。博客,论坛 b。 facebook,twitter c。评论网站如何实施社交媒体/网站监控服务?
a。博客,论坛 这只能由爬虫完成,对吧?在论坛/博客上寻找robots.txt的爬虫,并且可以阅读论坛/博客的内容(当然还有链接)。 但是从哪里开始?我可以使用一组网站开始抓取吗?我必须预先定义它们吗?或者我可以先使用其他搜索引擎吗?例如。在Google上搜索该公司,然后抓取SERP?法律?
b。 facebook,twitter 他们有API,所以帽子不应该是我想的问题。
c。评论网站 我看了一些评论网站的服务条款,他们写道,使用自动化软件抓取他们的网站是不允许的。另一方面,与我相关的网站在他们的robots.txt中不被禁止。这里重要吗?
欢迎任何其他提示。
在此先感谢:-)
核心问题是“我们在哪里提到过?” – nogamawa 2011-01-08 16:16:11