2011-09-23 75 views
0

我想从远程网站url中获取特定的HTML内容。
该网站的网址是如下,
http://www.realtor.com/realestateandhomes-detail/10216-Montwood-Drive_El-Paso_TX_79925_M78337-06548
如何从远程URL获取特定的HTML内容?

我想从上述网站网址获取某些特定的信息。 在这里,我附加了图像,突出显示了我想从所有突出显示的部分的特定区域的标题,图像和说明。 enter image description here


如何使用JQuery或Javascript或Json调用来获取内容? 有没有其他的方法来获得这些?

+1

你知道刮内容是非法的吗? – JNDPNT

+0

但我知道。这是合法的......我的一所大学开发了这个网站。 –

+0

请他为此创建一个(公共)web服务。然后分享数据会容易得多。 – BalusC

回答

2

您可能有兴趣查看pjscrape(免责声明:这是我的项目)。这是一个使用PhantomJS的命令行工具,允许在完整的浏览器上下文中使用JavaScript和jQuery进行抓取。

  • 铲运机可以在直接的JavaScript编写,在你刮,有一个非常简单的,jQuery的友好语法站点的上下文中执行。
  • 它可以抓取一个页面,一组页面,或者你可以定义一个函数来寻找更多的URL来蜘蛛在每个页面上。
  • 它支持JSON和CSV输出,无论是文件或者到标准输出

如果网站是静态的,结构是一致的,它应该是非常快的刮所有你需要成结构化数据格式的内容。

+0

无视此评论,我只是使用它作为一个书签,当我在一个适当的浏览器回来。有回报Upvote! – vzwick

+0

我刚分了这个。令人敬畏的代码,Rabinowitz先生!如果我能再一次Upvote,我会! – vzwick

+0

谢谢@ nrabinowitz有很好的例子来获取信息.. –

2
+0

谢谢@ JNDPNT,但我不知道PHP,我是C#开发人员..所以告诉我与我有关。 –

+0

您是否正在寻找一种在C#或Web上执行此操作的方法?这可能会帮助你找到一个C#程序:http://www.dotnetperls.com/scraping-html – JNDPNT

+0

谢谢@JNDPNT的参考链接 –

0

当抄袭内容,至关重要的是要考虑以下几点:
内容是否静态html或将它的一部分内容通过Ajax的调用来渲染?

在第一种情况下,像JNDPNT的注释Link中使用的简单http-get例程就足够了。
在第二种情况下,您可能想要通过它的Webdriver来查看自动化Selenium。

在任何情况下,最好向同事询问他是否可以为您提供原始数据的接口,例如,通过web服务。

+0

大学不在场他离开了这个城市..但现在我独自一人做这项工作。 –

+0

内容是静态和固定的结构.. –

0

如果我收到您的要求,您希望用户的浏览器在The Fly上刮去另一个域的内容,对不对?

由于同源策略,如果没有通过代理请求(通过相同域上的某些脚本发送请求),或通过jsonp请求发送给返回HTML的服务的请求。

对不起,令人失望。

+0

谢谢@wildrot –

0

使用Yahoo Pipes(http://pipes.yahoo.com/pipes/)服务。 这可以用来抓取和操作页面HTML,提取你想要的位。然后可以使用Web服务模块将数据发布到服务器端,或使用普通的JavaScript回调直接发送到客户端浏览器。