从html页面创建csv

有一个网站可以在html表格中显示大量数据。他们已经分页数据，因此大约有500页。从html页面创建csv

在Windows中获取这些表格中的数据并将其下载为CSV格式的最便捷的方法是什么？

基本上我需要编写一个脚本，做这样的事情，但overkilling写在C＃中，我寻找其他的解决方案，人们的网络体验使用：

for(i=1 to 500) 
    load page from http://x/page_i.html; 
    parse the source and get the data in table with id='data' 
    save results in csv

谢谢！

2011-07-06 DDD

我在做屏幕抓取应用程序一次，发现BeautifulSoup非常有用。您可以轻松地将其插入Python脚本中，并使用您正在查找的特定标识解析所有标签。

2011-07-06 21:03:39 aardvarkk

最简单的非C＃的方式我能想到的就是用Wget下载页面，然后运行HTMLTidy将其转换为XML/XHTML，然后转换生成的XML到CSV使用XSLT（与MSXSL.exe运行）

您将不得不编写一些简单的批处理文件和带有基本XPath选择器的XSLT。

如果您觉得在C＃中执行该操作会更容易，则可以使用SgmlReader来读取HTML DOM并执行XPath查询以提取数据。它不应该占用大约20行代码。

2011-07-06 21:15:23 dacris

回答