如何从远程URL获取特定的HTML内容？

我想从上述网站网址获取某些特定的信息。在这里，我附加了图像，突出显示了我想从所有突出显示的部分的特定区域的标题，图像和说明。 enter image description here

如何使用JQuery或Javascript或Json调用来获取内容？有没有其他的方法来获得这些？

你知道刮内容是非法的吗？ – JNDPNT

但我知道。这是合法的......我的一所大学开发了这个网站。 –

请他为此创建一个（公共）web服务。然后分享数据会容易得多。 – BalusC

您可能有兴趣查看pjscrape（免责声明：这是我的项目）。这是一个使用PhantomJS的命令行工具，允许在完整的浏览器上下文中使用JavaScript和jQuery进行抓取。

如果网站是静态的，结构是一致的，它应该是非常快的刮所有你需要成结构化数据格式的内容。

2011-09-23 21:53:28 nrabinowitz

无视此评论，我只是使用它作为一个书签，当我在一个适当的浏览器回来。有回报Upvote！ – vzwick

我刚分了这个。令人敬畏的代码，Rabinowitz先生！如果我能再一次Upvote，我会！ – vzwick

谢谢@ nrabinowitz有很好的例子来获取信息.. –

这将帮助你：

2011-09-23 10:50:59 JNDPNT

谢谢@ JNDPNT，但我不知道PHP，我是C＃开发人员..所以告诉我与我有关。 –

您是否正在寻找一种在C＃或Web上执行此操作的方法？这可能会帮助你找到一个C＃程序：http://www.dotnetperls.com/scraping-html – JNDPNT

谢谢@JNDPNT的参考链接 –

当抄袭内容，至关重要的是要考虑以下几点：
内容是否静态html或将它的一部分内容通过Ajax的调用来渲染？

在第一种情况下，像JNDPNT的注释Link中使用的简单http-get例程就足够了。
在第二种情况下，您可能想要通过它的Webdriver来查看自动化Selenium。

在任何情况下，最好向同事询问他是否可以为您提供原始数据的接口，例如，通过web服务。

2011-09-23 11:07:41 kalyfe

大学不在场他离开了这个城市..但现在我独自一人做这项工作。 –

内容是静态和固定的结构.. –

如果我收到您的要求，您希望用户的浏览器在The Fly上刮去另一个域的内容，对不对？

由于同源策略，如果没有通过代理请求（通过相同域上的某些脚本发送请求），或通过jsonp请求发送给返回HTML的服务的请求。

对不起，令人失望。

2011-09-23 23:05:03 vzwick

谢谢@wildrot –

使用Yahoo Pipes（http://pipes.yahoo.com/pipes/）服务。这可以用来抓取和操作页面HTML，提取你想要的位。然后可以使用Web服务模块将数据发布到服务器端，或使用普通的JavaScript回调直接发送到客户端浏览器。

2011-09-27 08:08:07 Skizz

回答