2012-02-20 19 views
1

我在抓取一个网站,并试图从HTML中拉出某些元素。在我刮的网站,也有脚本标记与一群在其中的信息。然而,有这些标签,我很感兴趣,里面一个部分线路基本上看起来像:使用Nokogiri/xpath从巨型HTML文件中拉出一些文本

'image':'http://ut5.example.com/t/231/3_b_643435.jpg', 

随着一些东西在上面和下面。现在,对于每个页面源,这是不同,除了明显的域和一些存储图像的子文件夹。

我该如何去寻找通过这个特定行的来源,并切出只是网址?我需要使用正则表达式,因为URL是动态的。

“gsub”方法的功能类似于我想要搜索的内容,它具有使用/ regex /的功能。但是,我不想取代任何东西,我只想使用/ regex /在源代码中找到该URL并将其复制。

+0

你能放的东西应该是结果的例子吗?它是“图像”:'image.jpg'吗? – elclanrs 2012-02-20 02:04:17

+0

我希望能够提取URL。 “gsub”方法有点做我想做的事情,搜索/regex/ ..但是,我不想取代任何东西,我只想将它复制到一个新的字符串或其他东西。 – user1015523 2012-02-20 02:06:25

+0

所以你只是想从上面的例子中提取'3_b_643435.jpg'并把它放在一个变量中,对吗? – elclanrs 2012-02-20 02:08:07

回答

1

根据您的意见,这是你在找什么我猜

var regex = /http.+/; 

http://jsfiddle.net/Km9ZB/

+0

工程很好,我有正则表达式设置。我试图使用“扫描”,但“匹配”的作品太棒了!谢谢! – user1015523 2012-02-20 02:18:17

相关问题