我正在尝试在网站中查找rss链接。但是我的代码也会返回img src和css链接,因为它的src包含rss单词。使用正则表达式在网页中查找rss链接
这是我的代码:
import urllib2
import re
website = urllib2.urlopen("http://www.apple.com/rss")
html = website.read()
links = re.findall('"((http)s?://.*rss.*)"',html)
for link in links:
print link
但是如果网站不一样呢?我正在为许多网页执行此操作。 – blackmamba
我手动做。我不知道任何更好的解决方案。但是如果你懒得手动做,那么你可以解析页面中的所有href链接(rss&non-rss)。并对链接执行HEAD请求并检查服务器响应。如果它具有'Content-Type:application/xml',那么可以确信它是一个RSS链接。但是这会慢得多,也会计算你的带宽。 –