2012-07-11 25 views
0

我必须处理一个项目,在该项目中我必须建立与网页的连接,以便我可以从该页面收集xml dtd模式片段并应用我的搜索它搜索用户输入的关键字。我已经在python中创建了算法,但不知道如何在python中建立连接,因为我是新手。任何人都可以指导我吗?建立与python中的某些网页的连接

请帮助

+2

甚至没有接近。 – 2012-07-11 12:04:22

+0

http://docs.python.org/library/urllib2.html – 2012-07-11 12:05:24

+0

一如既往,python stdlib是你的朋友。研究它,甚至还有一个特殊的[互联网协议部分](http://docs.python.org/library/internet.html)。 – 2012-07-11 12:08:56

回答

2

如果你的意思只是抓取网页,你可以尝试这样的:

import urllib2 
url = 'http://www.example.com/index.html' 
req = urllib2.Request(url) 
response = urllib2.urlopen(req) 
#now you can get the data by response.read() 
0

我不建议产卵插座等,为HTTP,同时也有像的urllib2库正如@fvwmer或我个人最喜欢的twill所提到的那样,它是一种用于浏览网站,下载内容甚至填写网络表单的简单脚本语言。

import re 
import twill 

go('http://www.stackoverflow.com') 
content = show() #saving content in a variable 
if re.search('some regex', content): 
     'do something'