2013-01-24 103 views
0

我需要从多个页面获取数据。数据存储在html表格中。 我想生成SQL文件,将它们保存到我的数据库。 我的目标之一是these results从html表中获取数据

处理网站最简单的方法可能是JavaScript,但是如何在每个网站上运行脚本并将结果写入我的硬盘?

我也可以使用wget下载所有需要的站点,并用Python处理它们,如果它有必要的库可以使用html。

回答

1

如果我正确理解你基本上必须从网上刮取一些内容并将其存储在数据库中。

我可能会去寻找一个Python脚本,它通过使用urllib2库来抓取网页,然后根据需要的内容(regexp,BeautifulSoup等等)以某种方式解析它。

看看这个问题:Web scraping with Python

+0

似乎合法,我会试试:) –