2008-11-07 53 views
2

我正在构建一个网络应用程序,我需要获取给定网址上嵌入的所有图像和任何Flash视频(例如,youtube)。我正在使用Python。如何扫描网页并获取图像和YouTube嵌入?

我已经使用了Google搜索,但还没有找到任何有关此信息的好消息(可能是因为我不知道这是要求搜索的内容),有没有人有过这方面的经验,并知道如何做到这一点?

我希望看到一些代码示例,如果有任何可用的。

谢谢!

回答

7

BeautifulSoup是一个很棒的屏幕抓取库。使用urllib2获取页面,然后使用BeautifulSoup将其解析。这里是他们的文档的代码示例:

import urllib2 
from BeautifulSoup import BeautifulSoup 

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php") 
soup = BeautifulSoup(page) 
for incident in soup('td', width="90%"): 
    where, linebreak, what = incident.contents[:3] 
    print where.strip() 
    print what.strip() 
    print 
+0

我只是在这个新的,你将如何屏幕刮了页面,并获得视频网址? – Vincent 2013-12-03 05:05:52