2011-07-06 127 views
3

有一个网站可以在html表格中显示大量数据。他们已经分页数据,因此大约有500页。从html页面创建csv

在Windows中获取这些表格中的数据并将其下载为CSV格式的最便捷的方法是什么?

基本上我需要编写一个脚本,做这样的事情,但overkilling写在C#中,我寻找其他的解决方案,人们的网络体验使用:

for(i=1 to 500) 
    load page from http://x/page_i.html; 
    parse the source and get the data in table with id='data' 
    save results in csv 

谢谢!

回答

0

我在做屏幕抓取应用程序一次,发现BeautifulSoup非常有用。您可以轻松地将其插入Python脚本中,并使用您正在查找的特定标识解析所有标签。

0

最简单的非C#的方式我能想到的就是用Wget下载页面,然后运行HTMLTidy将其转换为XML/XHTML,然后转换生成的XML到CSV使用XSLT(与MSXSL.exe运行)

您将不得不编写一些简单的批处理文件和带有基本XPath选择器的XSLT。

如果您觉得在C#中执行该操作会更容易,则可以使用SgmlReader来读取HTML DOM并执行XPath查询以提取数据。它不应该占用大约20行代码。