我在抓取一个网站,并试图从HTML中拉出某些元素。在我刮的网站,也有脚本标记与一群在其中的信息。然而,有这些标签,我很感兴趣,里面一个部分线路基本上看起来像:使用Nokogiri/xpath从巨型HTML文件中拉出一些文本
'image':'http://ut5.example.com/t/231/3_b_643435.jpg',
随着一些东西在上面和下面。现在,对于每个页面源,这是不同,除了明显的域和一些存储图像的子文件夹。
我该如何去寻找通过这个特定行的来源,并切出只是网址?我需要使用正则表达式,因为URL是动态的。
“gsub”方法的功能类似于我想要搜索的内容,它具有使用/ regex /的功能。但是,我不想取代任何东西,我只想使用/ regex /在源代码中找到该URL并将其复制。
你能放的东西应该是结果的例子吗?它是“图像”:'image.jpg'吗? – elclanrs 2012-02-20 02:04:17
我希望能够提取URL。 “gsub”方法有点做我想做的事情,搜索/regex/ ..但是,我不想取代任何东西,我只想将它复制到一个新的字符串或其他东西。 – user1015523 2012-02-20 02:06:25
所以你只是想从上面的例子中提取'3_b_643435.jpg'并把它放在一个变量中,对吗? – elclanrs 2012-02-20 02:08:07