2014-02-20 76 views
0

正如我的标题可能表明我正在尝试使用脚本显示和下载html页面。 我已经尝试了不同的python(和ActionScript 3)方法,但他们都没有实际显示网站上的整个可见内容。无法下载整个html页面

但是他们都表现出一定的javascipt的代码

有一些方法可以让我能查出可见的内容(我要下载动态由JavaScript创建的网页)?我想要的功能类似于“全选 - 复制” - windows方法。

+3

您需要使用[支持JavaScript的浏览器模拟器](http://stackoverflow.com/q/21777306/190597)。 – unutbu

+0

机械化? http://wwwsearch.sourceforge.net/mechanize/ – markcial

+0

我真的在Python中使用这个包安装功能时遇到麻烦。我想我已经成功安装了pip,但是在使用pip安装lxml时,我得到了很多标准的cmd回显,直到“C:\ Python33 \ lib \ distutils \ dist.py:258:UserWarning:Unknown distribution option:'extra-require' ”。以下很多类似的错误... – user3257755

回答

0

既然你写

我想要的功能类似于“全选 - 复制” - 窗口 方法。

我知道你想下载网页的“源代码”。如果这是你想要的,那么这就是你需要做的。

import urllib.request 
import re 

urls = ["http://google.com","http://yahoo.com"]; 

i=0; 
while i < len(urls):  
    htmlfile = urllib.request.urlopen(urls[i]); 
    htmltext = htmlfile.read(); 
    print(htmltext); 
    print("\n"); 
    i=i+1; 

它读取URL和打印他们的源代码。