您可以使用ghost.py直接与页面上的JavaScript进行交互,而不是尝试对其进行反向工程。
如果您在Chrome控制台中运行以下查询,您会看到它会返回所需的所有内容。
document.getElementsByClassName('inline-text-org');
返回
[<div class="inline-text-org" title="University of Manchester">University of Manchester</div>,
<div class="inline-text-org" title="University of California Irvine">University of California ...</div>
etc...
您可以通过蟒使用ghost.py现实生活中的DOM运行JavaScript。
这是真的很酷:
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')
result, resources = ghost.evaluate(
"document.getElementsByClassName('inline-text-org');")
“只是问”?您的链接导致2011年的线程。 - 无论如何,欢迎来到SO。感兴趣的主题和你的回答,我+1 – eyquem
你是完全正确的,我甚至没有找到日期...... *惭愧* 感谢您的热烈欢迎,但! – danstaaar