我目前正在尝试使用任何可用语言的科学名称来获取鸟的描述页。例如,使用科学名称“Ibycter americanus”作为“https://en.wikipedia.org/wiki/”的端点,浏览器将我重定向到the english wikipedia page。如果我使用子域“fr”,以法语显示,我将被重定向到to the french page。有没有办法获得维基百科网址的最终目的地?
这一切都工作得很好的浏览器,但我无法得到Python代码最终网址:
req = urllib2.Request("https://en.wikipedia.org/wiki/" + "Ibycter americanus")
res = urllib2.urlopen(req)
finalurl = res.geturl()
print(finalurl)
的finalurl总是“https://en.wikipedia.org/wiki/Ibycter_americanus”,而不是“https://en.wikipedia.org/wiki/Red-throated_caracara”像它显示在浏览器中。有任何想法吗?
我认为这个网址实际上是* https://en.wikipedia.org/wiki/Ibycter_americanus,并且它正在Javascript中被地址栏重写。 – user2357112
有没有办法通过运行JavaScript来重写? –
@ user2357112是的。这可能就是这样。看看它甚至在[Wikipedia页面]上说了什么(https://en.wikipedia.org/wiki/Red-throated_caracara) - _“(从[Ibycter americanus]重定向(https://en.wikipedia.org/w /index.php?title=Ibycter_americanus&redirect=no))"_。 –