我有一个网页,有如下内容(我已经改变了网址为隐私的目的SRC标签,否则查看页面源是相同的):如何刮用JavaScript从网站图片和servlet
<HTML>
<BODY>
<script type="text/javascript" src="http://localhost/servlet?publicKey=abcdefg12345678&"></script>
</BODY>
</HTML>
生成的页面在浏览器中显示图像,我试图抓取该图像。在我刮掉图像后,我尝试为图像建立索引(请参阅www.tineye.com以了解图像搜索引擎的想法)并存储它们。如果有人知道如何从这些网站上刮取图片,请告诉我。
注:SRC不包含有关图像的任何信息......它只调用使用公钥作为参数给定的servlet。我上面发布的内容完全是我在浏览器(Firefox)中单击查看 - >页面源时看到的。当然,我已经更改了隐私问题的实际URL和公钥,否则所有内容都是相同的。
我似乎已经用于一些横幅类似的技术:http://coldjava.hypermart.net/servlets/banner.htm
另一种方法是在浏览器中打开网页,把网页的快照和写屏幕抓取代码来获得图像。我不确定是否有一个更简单的解决方案来解决我的问题,但如果有问题的话,这将非常棒! :) – Kiril 2010-01-26 21:41:04