2009-07-09 30 views
0

给定一个HTML页面我想获取嵌入在HTML文件中的所有'x'文件或通过它链接,其中'x'等于:从HTML页面(任何语言)解析多媒体文件

  • 图片(JPG,PNG,GIF ...)
  • 文档(Word,PowerPoint中,PDF ...)
  • 的Flash(FLV的,瑞士法郎)

我如何做这个?

  1. 因此,图像很容易提取,因为它们或者链接到以(.png | .jpg | ....)结尾的链接,或者它们嵌入了img标记。
  2. 文档不能嵌入,它们只能链接到(链接以.doc | .ppt | .pdf | ...结尾)。所以他们也很容易得到。

这里是我的问题:

如何获得嵌入在网页中的Flash文件?

请给我一个伪算法或正则表达式模式。

如果我上面的观点(1和2)错了,请告诉我。

谢谢!

回答

0

Firefox扩展DownThemAll,您可以用鼠标右键单击页面并下载所有指定分机的媒体。它是开源的,所以你可能想看看他们的代码,看看他们是如何实现它的。

0

我会使用一个基于事件的XML解析器(如SAX)和写的和标签的规则,以获得SRC和HREF属性。