我必须处理一个项目,在该项目中我必须建立与网页的连接,以便我可以从该页面收集xml dtd模式片段并应用我的搜索它搜索用户输入的关键字。我已经在python中创建了算法,但不知道如何在python中建立连接,因为我是新手。任何人都可以指导我吗?建立与python中的某些网页的连接
请帮助
我必须处理一个项目,在该项目中我必须建立与网页的连接,以便我可以从该页面收集xml dtd模式片段并应用我的搜索它搜索用户输入的关键字。我已经在python中创建了算法,但不知道如何在python中建立连接,因为我是新手。任何人都可以指导我吗?建立与python中的某些网页的连接
请帮助
如果你的意思只是抓取网页,你可以尝试这样的:
import urllib2
url = 'http://www.example.com/index.html'
req = urllib2.Request(url)
response = urllib2.urlopen(req)
#now you can get the data by response.read()
我不建议产卵插座等,为HTTP,同时也有像的urllib2库正如@fvwmer或我个人最喜欢的twill所提到的那样,它是一种用于浏览网站,下载内容甚至填写网络表单的简单脚本语言。
import re
import twill
go('http://www.stackoverflow.com')
content = show() #saving content in a variable
if re.search('some regex', content):
'do something'
甚至没有接近。 – 2012-07-11 12:04:22
http://docs.python.org/library/urllib2.html – 2012-07-11 12:05:24
一如既往,python stdlib是你的朋友。研究它,甚至还有一个特殊的[互联网协议部分](http://docs.python.org/library/internet.html)。 – 2012-07-11 12:08:56