我需要做的是计算在网页上bash脚本:字出现在网站
这个词出现的脚本我在做什么是计算随机IP地址(避免检查相同的IPS不止一次),使用nmap来查看端口80是否打开以知道它是否是Web服务器,然后使用w3m将http页作为文件。 很容易经过数字occurances
我得到了这个过程需要花费很多的一些问题和问题
- ,但我想不出任何方法使人们更快
- 许多ips与端口80打开不是网站,他们不起来,他们可能有一些问题,有没有什么办法只检查网站已经启动?
- 这种方法只检查单词出现在一个网站的索引页,有没有办法还检查其他公共网页?
非常感谢
使用命名为基础的虚拟主机,具有IP地址是不够的。您还需要知道指向该IP的每个DNS名称。一个IP可以为数千个网站提供服务。 – jordanm 2012-08-03 22:57:11
听起来像你打算写一个网页刮板。 bash脚本可能不是该工作的最佳工具。有exisiting的框架存在,这将有助于你建立一个相当快,如[scrapy(http://scrapy.org/),[Heritrix的(https://webarchive.jira.com/wiki/display/Heritrix/Heritrix; jsessionid = 423A366AA0AD45A45D0439A34E2C5A43)等等。如果您想使用脚本创建一个,请考虑使用['wget'](http://www.dheinemann.com/2011/archiving-with-wget/)。 – 2012-08-03 23:04:53
谢谢你们。首先,我需要为我的大学制作这个脚本,所以它必须在bash编程中。有没有办法让每个DNS名称为该IP?我知道很多提供此服务的网站。我也试着用“dig -x ipadress + short”,它给了我域名。问题是它只是一个主机。够了吗?因为正如你所说,一个单一的ip可以包含数千个网站,并且只需要一个就可以了。有没有一个Linux命令来做到这一点?还有怎么得到其他网页的信息(而不是索引之一) – Epilogue 2012-08-03 23:25:10