使用Nokogiri/xpath从巨型HTML文件中拉出一些文本

我在抓取一个网站，并试图从HTML中拉出某些元素。在我刮的网站，也有脚本标记与一群在其中的信息。然而，有这些标签，我很感兴趣，里面一个部分线路基本上看起来像：使用Nokogiri/xpath从巨型HTML文件中拉出一些文本

'image':'http://ut5.example.com/t/231/3_b_643435.jpg',

随着一些东西在上面和下面。现在，对于每个页面源，这是不同，除了明显的域和一些存储图像的子文件夹。

我该如何去寻找通过这个特定行的来源，并切出只是网址？我需要使用正则表达式，因为URL是动态的。

“gsub”方法的功能类似于我想要搜索的内容，它具有使用/ regex /的功能。但是，我不想取代任何东西，我只想使用/ regex /在源代码中找到该URL并将其复制。

你能放的东西应该是结果的例子吗？它是“图像”：'image.jpg'吗？ – elclanrs 2012-02-20 02:04:17

我希望能够提取URL。 “gsub”方法有点做我想做的事情，搜索/regex/ ..但是，我不想取代任何东西，我只想将它复制到一个新的字符串或其他东西。 – user1015523 2012-02-20 02:06:25

所以你只是想从上面的例子中提取'3_b_643435.jpg'并把它放在一个变量中，对吗？ – elclanrs 2012-02-20 02:08:07

根据您的意见，这是你在找什么我猜

var regex = /http.+/;

2012-02-20 02:13:30 elclanrs

工程很好，我有正则表达式设置。我试图使用“扫描”，但“匹配”的作品太棒了！谢谢！ – user1015523 2012-02-20 02:18:17

回答