2011-10-10 73 views
0

我想知道是否有人能指出我正确的方向。从网站抓图像

我有一个相当大的需要插入商店的产品信息电子表格。棘手的是,电子表格有一个链接指向另一个网站上的相关页面,其中包含产品详细信息,我需要做的是抓取相关的图像并保存在本地,以便以后使用。原因Why Im思考这条线是有7500产品....

我的朋友建议我也许可以使用php & filepopen。

图像确实有一个我可以参考的外部标签ID。

我想通过电子表格迭代的,这是我与

http://www.apc.com/resource/include/techspec_index.cfm?base_sku=APCRBC105

工作图像本身被称为东西随机链路的类型,但我想我抢,我可以将其重命名他们到更相关的SKU号码。

  • 通过SKU号
  • 电子表格等等迭代通过页面上的相关ID识别图像(我assumming这是在同一个地方 每一页上)
  • 保存图像时重命名到正确的SKU号码

任何想法,我怎么可以去这个?想到手动访问每个页面并保存图像7500次似乎并不是最好的方式!

感谢您寻找

+1

*(相关)* [最佳方法解析HTML](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon

+1

实际上,我没有看到任何其他方式超出你所描述的范围。 –

+0

但是,您应该使用http://www.apc.com/products/moreimages.cfm?partnum=APCRBC105 –

回答

0

从您的链接中取出base_sku。

APCRBC105

然后用卷曲来获取图像页面

http://www.apc.com/products/moreimages.cfm?partnum=APCRBC105

瑞普对正则表达式epression图像链接:

<div align="center"> 
<img align="center" src="http://www.apcmedia.com/resource/images/500/Front_Left/35531838-5056-9170-D33F24AE47742E6C_pr.jpg" /> 
</div> 

然后卷曲再次使用翻录实际图像并保存。 这应该工作..

+0

谢谢我会嘟that一下 – mro

0

如果不是针对受版权保护的材料的任何问题,看看谷歌细化。

您可以根据您的单元值从网站抓取内容,然后使用它们构建更复杂的场景。 有关更多信息,请参阅screencasts(截屏视频3讲述通过URL获取值)。

一旦在电子表格中有了图像URL,通过curl或类似方法获取它们应该相当容易。

+0

嗨,它基本上是一个产品的电子表格,并且链接在他们的供应商网站上 - 所以这一切都很好,谢谢我将采取谷歌精简。 – mro