2009-03-01 41 views
4

我正在修补一个网络工具,给定一个URL,将检索文本并给用户一些统计内容。网址检索服务的最佳做法?如何避免被攻击媒介?

我很担心给用户一个方法来发起一个GET请求,从我的盒子到网上的任意URL都可能成为攻击的载体(例如到http://undefended.box/broken-sw/admin?do_something_bad)。

是否有方法将此风险降至最低?提供公开网址检索功能时的最佳做法?

我想过的一些想法:

  • 履行robots.txt
  • 接受或拒绝只有某些URL模式
  • 检查相应网站黑名单/白名单(如果这样的事情存在)
  • 假设他们已经建立在这些安全措施之前,通过一个众所周知的第三方公共网络代理进行工作

感谢您的帮助。

编辑:它只会评估HTML或文本内容,无需下载或评估链接的脚本,图像等。如果是HTML,我将使用HTML解析器。

+0

每ip每分钟限制请求数量? – Nifle 2009-03-01 19:31:26

回答

2

有关文档中的文本的统计信息是只有?你打算使用HTML解析器来评估它吗?

如果只是您要分析的文本,即不下载更多链接,评估脚本等,那么风险不那么严重。

它可能不会伤害通过一个反病毒程序下载每个文件。您还应该将GET限制为某些内容类型(即不要下载二进制文件;确保它是某种文本编码)。

相关问题