2010-11-10 47 views
0

我开发了一个工具,可以根据用户在浏览器中将其可视化的方式创建网页的缩略图。如何知道目标网站是否包含私人内容?

如果所有用户看到相同的内容,我只想生成一次缩略图。但是,如果内容是自定义的或私人的(例如,Facebook主页),则生成的缩略图将仅适用于该特定用户,而不是所有人。

我的问题如下: - 如何检查网页是否包含隐私信息或显示以避免尝试获取它们?

我的研究让我认为如果使用https连接,则内容是私人的。但是,并非所有网站在私密数据时都使用https,但并不敏感,例如Facebook使用http作为您的个人主页。 我相信有一种方法可以检查php是否通过会话记录了用户,以检测该用户是否在登录类型的网站中。

任何想法?

由于提前, 盖尔

回答

1

要考虑的一个想法是使用社交过滤器。 GMail的垃圾邮件陷阱就是一个众所周知的例子。这个想法是,你会产生最好的预览,但可以给用户提供某种小部件来标记网站预览不准确(例如:“如果此站点预览不准确,请选中此框”选项,其中一个原因是“此页面包含取决于用户使用它的个人信息”)。然后定义一个算法,以确定在决定停止提供该网站的预建预览之前,有多少人必须点击该小部件。

这种方法的一个缺点是它依赖于大量的用户使用该网站为了准确 - 而你的工具是年轻的和未使用的,这种方法将不会很准确。另外,很少有人访问的网站也会使这种方法很难准确。

编辑:超越这些问题的一种方法是仅基于访问频率预生成预览。换句话说,一旦某个特定的网站开始被足够的用户请求,那么您就开始预生成预览 - 包括小部件,然后允许用户告诉您不要预先生成它。这种方法可能会起作用,因为您可以保证足够的用户可以使用它来使小部件有用。

+0

这是一个好主意,因为我专注于技术规范,所以我没有考虑用户方面的解决方案。谢谢 ! – 2010-11-10 15:00:07

1

你不能。您不知道网站如何进行会话管理或以其他方式识别用户。它可能是cookies,在URL中编码或其他内容。

1

- 如何检查网页是否包含隐私信息或显示以避免尝试获取它们?

我认为最终的结果将是你不能。例如,Facebook不使用https。

有可能是私人网站的指标,例如登录字段的存在,但仍不会告诉您用户是否登录到该网站。

您也无法确定用户是否登录到某个站点,因为这些信息对服务器来说是私有的,并且无论用户是否登录,大多数站点都会维护一个会话cookie。

此外,即使网站用户不是私人用户(*咳嗽* YouPorn *咳嗽*),也会有网站用户不希望以缩略图形式出现。

相关问题