2012-06-14 264 views
1

我正在尝试获取网页源代码。 我用过:获取网页源代码

$ curl --user name:password www.example.com 

但这给了我登录页面的页面源。我想在登录后获取页面源。

我也尝试过wget,但没有成功。

我不能使用引入nokogiri和其他宝石宝石等

有什么办法,我可以使用Firefox的命令行来获得页面的源代码或是否有任何其他方式来获得页面的源代码?

感谢

+1

这可能invovles处理会话。老实说,我建议使用一个web机械化软件包,但如果你不能这样做,很难在没有这么少的信息的情况下帮助你。 –

回答

1

有什么办法,我可以使用Firefox的命令行来获得页面的源代码...

您可以编写脚本的Firefox(以及其他浏览器)通过Selenium WebDriver。对于Ruby绑定,请参见RubyBindings


编辑:你说你不能使用“其他红宝石的宝石,”所以我猜硒网络驱动程序不是一个选项。还有Selenium IDE,这是一个可以使用的Firefox扩展,基本上可以记录自己登录的宏。然后可以从命令行调用测试。这可能会或可能不会帮助,具体取决于您要做的事情。


或者,您可以用cURL登录sending a POST request并输入所需的值。如果您需要获取除请求后返回的第一页以外的任何内容的源,则需要使用--cookie-jar选项为后续请求保存会话。