我想从网页中提取所有链接。这是我的代码到目前为止。如何使用python和机械化从php页面获取所有链接
import mechanize
import lxml.html
from time import sleep
links = list()
visited_links = list()
br = mechanize.Browser()
def findLinks(url):
response = br.open(url)
visited_links.append(response.geturl())
for link in br.links():
response = br.follow_link(link)
links.append(response.geturl())
sleep(1)
findLinks("http://temelelektronik.net")
for link in links:
if link in visited_links:
links.remove(link)
else:
findLinks(link)
print link
for link in visited_links:
print link
事实上,我不想写一个网络爬虫。我想要做的是从网页中提取所有链接并创建一个站点地图。我也想知道是否可以使用mechanize和python从服务器获取文件的最后修改时间。
我想问的是,这段代码片段适用于HTML页面。它不会从php页面提取链接。例如this page。我如何从PHP页面提取链接?
任何帮助,将不胜感激。谢谢..
非常感谢你的页面。 [pattern.web](http://www.clips.ua.ac.be/pages/pattern-web)模块工作得很好。 – Erdem 2013-02-10 12:47:19