2013-12-12 102 views
2

我有一个HTML文件,需要把它和访问读一些值:如何阅读和解析html文件?

myHtml = 'toto.html'; 
readFile = fileread(myHtml); 

现在来解析HTML文件,你知道,如果它是可能的HTML转换成XML,然后使用XPath?

+1

我会使用基于Java的HTML解析器,您可以直接从Matlab命令行运行java代码。 http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers – Daniel

+0

你是指html文件上的XPATH?要做到这一点,我应该阅读该文件与xmlread这是不可能的... – lola

+0

忘记我以前的评论,使用丹尼尔的建议 – MZimmerman6

回答

1

我不会推荐尝试将HTML转换为XML。他们是不同的格式,你很可能会被烧伤。 HTML解析器存在,所以我们可以直接使用它们。

此外,为了完整性,不要试图用正则表达式解析HTML。有关于在Matlab中解析HTML的堆栈溢出问题,其中的答案建议正则表达式。做无辜的小猫一个忙,并调出来。

不幸的是,它看起来不像Matlab有一个HTML解析器作为它的库的一部分。

幸运的是,您可以在Matlab中轻松利用Java代码!
因此,Java HTML解析器是公平的游戏。看着jsoup或jtidy。拨打this question

其实,看看这个问题,加上Comparison of HTML parsers维基百科文章(谢谢@Daniel R!),它看起来像HTMLCleaner或Jtidy可能会将HTML清理为XML。再次,我不会打扰,并直接解析HTML。

+0

为什么说XPath很好,即使HTML不是XML的子集? –

+0

仅仅因为Xpath完全是正确的工具......如果我们正在处理一个XML文件 –

+0

你是自相矛盾的。但是不要紧。 –