从URL的内容获取内容的自动化过程

我有一个来自客户端的URL的巨大列表，我需要运行通过，所以我可以从页面获取内容。该内容位于页面内的不同标签中。从URL的内容获取内容的自动化过程

我期待创建一个自动服务来做到这一点，我可以离开运行完成。我想要自动化的过程加载每个页面，并从特定的html标签获取内容，然后处理一些这些内容，以确保html是正确的。

如果可能，我想生成一个XML或JSON文件，但我可以解决每页的XML或JSON文件。

什么是最好的办法做到这一点，最好是我可以运行一个Mac或Linux服务器。

URL的列表是到外部网站。

有什么我已经可以使用的或某个地方会帮助我的例子。

感谢

来源

2014-01-14 zizther

Python的[BeautifulSoup]（http://www.crummy.com/software/BeautifulSoup/）非常擅长解析HTML。 [urllib.request]（http://docs.python.org/3/library/urllib.request.html）擅长提取事物。将两者结合起来，你就得到了你需要的工具。 – mojo

这是BeautifulSoup，恕我直言，一个完美的应用。这是一个类似的过程tutorial。这当然是一个头马。

来源

2014-01-14 23:14:41

Scrapy是一个很好的蜘蛛抓取和抓取框架。

我想你会发现它会涉及更多的学习开销基于蒂姆厨师在his answer提到的Requests + Beautiful Soup或LXML教程。但是，如果你正在编写大量的拼写/解析逻辑，它应该指向一个非常合理的（可读的，可维护的）代码库。

所以，如果这是一次性运行，我会与美丽的汤+请求。如果它将被重复使用，延长和保持一段时间，那么Scrapy就是我的选择。

来源

2014-01-14 23:29:47

从URL的内容获取内容的自动化过程

回答

相关问题