2010-05-21 123 views
3

我解析HTML文件的HTML敏捷包的帮助,从HTML文件中提取表数据。但是有一些html文件没有可选的结束标签,或者没有起始标签也是可选的。所以html敏捷包不会正确解析html页面。如果我在记事本++中打开该html文件的内容然后使用选项TestFX-->TestFX HTML Tidy-->TiDy clean document并使内容整洁如此。现在这个文件如果我用html敏捷包进行解析,那么它会正确解析它。我可以在我的应用程序中使用notepad ++ exe吗?

用记事本++使html页面整洁是最好的选择。

所以我不知道,但用户不能这样做,他们首先使用记事本++使页面整洁,然后继续。然后,我该怎么办?

编辑我已经使用HTML整洁的包,但在某些情况下,存在被整理与该文件不会被解析,但如果我让这个页面在记事本整洁++则解析。

回答

4

我觉得记事本+ +是使用HtmlTidy库,并且你也可以。主页面是here

或者,也许你可以像使用HrmlTidy online

编辑服务:你似乎想用记事本+ +(上HtmlTidy的顶部)。 NP ++有一套有限的command options,所以加载文件不会是问题。但是我找不到任何接口来引用你需要的其余部分:整理HTML并保存结果。

+0

我已经使用这个,但它并不总是工作。 – Harikrishna 2010-05-21 12:26:26

+0

我该怎么做,任何推荐? – Harikrishna 2010-05-21 12:46:50

2

HTML Tidy独立于Notepad ++,您可以直接在.NET(或其他语言)项目中使用此开源组件。

在.NET中使用更多细节具体可以发现here

0

HTML Tidy也可以单独使用,并且仅用作Notepad ++中的插件。你可能想直接在你的应用中使用它。看看http://tidy.sourceforge.net/。许多语言的实现都可用。

相关问题