2013-09-28 105 views
1

我试图抓取这些列表,并为属于我的客户的网站上的这些工作列表提供更多曝光。问题是,我需要能够链接到具体的工作列表,以便求职者申请。 This is the page我在尝试保存来自的商家信息链接。刮似乎没有网址的网页

这将是理想的,如果我可以保存求职者点击查看原始列表然后申请的地址。

  1. 这是什么网站做不设有网址为这些页面
  2. 是否有可能提供一个列出具体地址
  3. 如果可能的话,我怎么能生成地址?

如果我不能得到一个特定的地址,我认为,这样用户点击触发我的客户的网站内部脚本这需要上市ID并搜索我发现,上市的网站的链接,我能得到它开启,然后将用户重定向到该特定列表。

这样做的缺点是用户将不得不等待一段时间,具体取决于列表在目录上的位置。我可以通过一个愉快的“搜索您的列表!感谢您的耐心”信息来放置某种进度条。

如果我可以避免必须这样做,但是,那太棒了!

我正在使用Nokogiri和机械化。

+0

是机械化允许表单提交。谢谢! –

+0

如果你可以写出你在这里作为答案,我会给你信贷。 –

回答

0

您引用的页面似乎是由Oracle产品生成的,所以人们会认为他们愿意正确构建Web表单(并参考可访问性问题)。他们没有,所以我觉得他们的工程师们每天都很糟糕,或者他们故意让它稍微难以刮擦。

当您将鼠标悬停在这些链接上时,浏览器不显示的原因是href没有。页面的功能是使用JavaScript捕获点击事件,使用一些隐藏值填充POST表单,然后以编程方式调用submit方法。这可能会导致屏幕阅读器和其他辅助功能设备出现问题,并导致后退按钮重新提交页面的方式出现问题。

好消息是,这种类型的构造通常可以通过自己创建表单来实现,可以使用第三方页面上的真实表单或通过爬虫库。如果您将正确的值发布到目标URI,通过检查页面脚本进行逆向工程,则生成的文档应该是您期望的“链接”页面。

+1

非常感谢! –