2017-05-06 39 views
0

我正在尝试创建一个应用程序,它可以从任意页面提取财务数据,而不管财务报表格式或惯例如何。所以基本上我想解析或提取字段/值,并将相同的字段写入桌面上的CSV或Excel文件。下面的引用说明了我想要做什么;如何从Qt中的HTML源代码提取表格值?

解析(各HTML线) - >值 - >写(FILE.CSV,值)

在上述过程中,我感到十分舒适约写入CSV或Excel文件;我的问题是HTML代码部分的解析。

显然,我可以扫描HTML页面的表格语法,然后提取值;但是恐怕这对于带有多个标签的网页来说是徒劳的。由于每个选项卡可能会加载不同的数值,例如,财务网站可能有2个用于年报和季度报告的选项卡。我对HTML没有经验,但我愿意学习和解决这个问题。但是在我继续之前,我希望如果在Qt中有这样的直接或更聪明的方式?我不想在这里重新发明轮子。谢谢。

回答

0

您可以使用: 1.用于匹配简单模式的QRegExp(旧类)或QRegularExpression。但是你必须学习正则表达式语法。我建议学习它例如,你可以建立表达式匹配模式,如:数据名称:numers(lik 4354.65等)。这是多语言的通用编程解决方案。
2. QDomDocument类提供了很好的接口来分析带树值的ml(html,xml)文档。 QDomDocument速度很慢,请使用mutch内存,但可以从特定的标记树中获取值。这很复杂。

当页面重新加载时,制表符不成问题。简单的HTML页面需要设置给你所有的选项卡。只有当标签链接或使用AJAX时,您需要物理“点击”才能获取新数据。您必须下载两个html页面进行解析。 一些好的页面可以让你的网站地图。尝试解析它以获取有趣的地址。

+0

感谢兄弟:)我会尝试你的建议。干杯。 – Vino

相关问题