2013-10-16 37 views
0

逗人我想获得源页面而不是在互联网,而在本地系统获得本地系统的Python源HTML

example : url=urllib.request.urlopen ('c://1.html') 



>>> import urllib.request 
>>> url=urllib.request.urlopen ('http://google.com') 
>>> page =url.read() 
>>> page=page.decode() 
>>> page 

什么是我的问题吗?

+0

'c://1.html'不是一个有效的网址 –

+0

我知道,但我需要在本地系统获得源 – aliweb

+0

http://en.wikipedia.org/wiki/File_url – Hypuk

回答

1
from os.path import abspath 
with open(abspath('c:/1.html') as fh: 
    print(fh.read()) 

由于url.read()只是给你的数据,是和.decode()并没有真正做到,除了从插座转换字节数据到传统的字符串,只打印filecontents什么?

urllib主要是(如果不仅仅是)接收HTML数据的传输器,而不是实际解析内容。因此,它所做的只是连接到源代码,分开标题并为您提供内容。如果你已经存储在本地,在一个文件..那么urllib已经没有更多的用途给你。考虑查看一个HTML解析库,例如BeautifulSoup

相关问题