我有一个来自客户端的URL的巨大列表,我需要运行通过,所以我可以从页面获取内容。该内容位于页面内的不同标签中。从URL的内容获取内容的自动化过程
我期待创建一个自动服务来做到这一点,我可以离开运行完成。 我想要自动化的过程加载每个页面,并从特定的html标签获取内容,然后处理一些这些内容,以确保html是正确的。
如果可能,我想生成一个XML或JSON文件,但我可以解决每页的XML或JSON文件。
什么是最好的办法做到这一点,最好是我可以运行一个Mac或Linux服务器。
URL的列表是到外部网站。
有什么我已经可以使用的或某个地方会帮助我的例子。
感谢
Python的[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/)非常擅长解析HTML。 [urllib.request](http://docs.python.org/3/library/urllib.request.html)擅长提取事物。将两者结合起来,你就得到了你需要的工具。 – mojo