2014-01-14 102 views
0

我有一个来自客户端的URL的巨大列表,我需要运行通过,所以我可以从页面获取内容。该内容位于页面内的不同标签中。从URL的内容获取内容的自动化过程

我期待创建一个自动服务来做到这一点,我可以离开运行完成。 我想要自动化的过程加载每个页面,并从特定的html标签获取内容,然后处理一些这些内容,以确保html是正确的。

如果可能,我想生成一个XML或JSON文件,但我可以解决每页的XML或JSON文件。

什么是最好的办法做到这一点,最好是我可以运行一个Mac或Linux服务器。

URL的列表是到外部网站。

有什么我已经可以使用的或某个地方会帮助我的例子。

感谢

+0

Python的[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/)非常擅长解析HTML。 [urllib.request](http://docs.python.org/3/library/urllib.request.html)擅长提取事物。将两者结合起来,你就得到了你需要的工具。 – mojo

回答

0

这是BeautifulSoup,恕我直言,一个完美的应用。这是一个类似的过程tutorial。这当然是一个头马。

0

Scrapy是一个很好的蜘蛛抓取和抓取框架。

我想你会发现它会涉及更多的学习开销基于蒂姆厨师在his answer提到的Requests + Beautiful Soup或LXML教程。但是,如果你正在编写大量的拼写/解析逻辑,它应该指向一个非常合理的(可读的,可维护的)代码库。

所以,如果这是一次性运行,我会与美丽的汤+请求。如果它将被重复使用,延长和保持一段时间,那么Scrapy就是我的选择。