关于从网页获取信息的创建应用程序的建议

首先想说的是我有Python和一些网络库的经验，如机械化，美丽的汤，urllib2。关于从网页获取信息的创建应用程序的建议

这个想法是创建一个应用程序，它将从网页中获取信息，我目前在webbrowser中查找。而不是存储它。

例如：我手动进入网站，创建一个用户。比运行我的应用程序，这将从网页抓取一些细节，我目前正在看。如用户名，名字，姓氏等。

问题：我不知道如何让程序运行在我的网页浏览器之上。我不能简单地使用scipt登录此网页，然后使用美丽汤做其余的事情，因为它对网络爬虫和网络机器人具有很好的保护。

需要一些地方开始。所以主要问题是可以获取当前在我的Web浏览器上的信息吗？如果是的话，希望听到关于如何让我的程序看浏览器的一些建议？

请随意填写问我，如果你不知道我在问什么，或者你有一些建议，我可以使用一些图书馆。

2012-10-17 Vor

我建议看看像[PhantomJS]（http://phantomjs.org/），或者如果你想要一个可视化工具，你可以看看[Selenium]（http://seleniumhq.org/）或[假]（http://fakeapp.com/）。 –

PhantomJS看起来很不错，请看看它，谢谢 – Vor

PhantomJS的问题是我认为你不能手动做很多事情，因为它是无头的。当然，在那里做脚本可能会更容易。 – Dougal

最简单的做法可能是将当前页面的HTML内容保存到一个文件中（使用文件 - >保存页面或其他任何东西在浏览器中），然后运行Beautiful Soup/lxml.html/whatever在那个文件上。

你可能也可以得到Selenium做你想做的，虽然我从来没有使用过它，我不知道。

2012-10-17 22:48:48 Dougal

我也在想这个，但是想创建一个可以自动完成的应用程序。你知道是否有可能从浏览器缓存中获取当前网页？ – Vor

关于Selenium，是否可以手动执行登录部分并调用硒并执行其他操作？ – Vor

回答