2012-10-17 61 views
0

首先想说的是我有Python和一些网络库的经验,如机械化,美丽的汤,urllib2。关于从网页获取信息的创建应用程序的建议

这个想法是创建一个应用程序,它将从网页中获取信息,我目前在webbrowser中查找。而不是存储它。

例如: 我手动进入网站,创建一个用户。 比运行我的应用程序,这将从网页抓取一些细节,我目前正在看。如用户名,名字,姓氏等。

问题: 我不知道如何让程序运行在我的网页浏览器之上。我不能简单地使用scipt登录此网页,然后使用美丽汤做其余的事情,因为它对网络爬虫和网络机器人具有很好的保护。

需要一些地方开始。所以主要问题是可以获取当前在我的Web浏览器上的信息吗?如果是的话,希望听到关于如何让我的程序看浏览器的一些建议?

请随意填写问我,如果你不知道我在问什么,或者你有一些建议,我可以使用一些图书馆。

+0

我建议看看像[PhantomJS](http://phantomjs.org/),或者如果你想要一个可视化工具,你可以看看[Selenium](http://seleniumhq.org/)或[假](http://fakeapp.com/)。 –

+0

PhantomJS看起来很不错,请看看它,谢谢 – Vor

+0

PhantomJS的问题是我认为你不能手动做很多事情,因为它是无头的。当然,在那里做脚本可能会更容易。 – Dougal

回答

0

最简单的做法可能是将当前页面的HTML内容保存到一个文件中(使用文件 - >保存页面或其他任何东西在浏览器中),然后运行Beautiful Soup/lxml.html/whatever在那个文件上。

你可能也可以得到Selenium做你想做的,虽然我从来没有使用过它,我不知道。

+0

我也在想这个,但是想创建一个可以自动完成的应用程序。你知道是否有可能从浏览器缓存中获取当前网页? – Vor

+0

关于Selenium,是否可以手动执行登录部分并调用硒并执行其他操作? – Vor

相关问题