如何阅读和解析html文件？

我有一个HTML文件，需要把它和访问读一些值：如何阅读和解析html文件？

myHtml = 'toto.html'; 
readFile = fileread(myHtml);

现在来解析HTML文件，你知道，如果它是可能的HTML转换成XML，然后使用XPath？

2013-12-12 lola

我会使用基于Java的HTML解析器，您可以直接从Matlab命令行运行java代码。 http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers – Daniel

你是指html文件上的XPATH？要做到这一点，我应该阅读该文件与xmlread这是不可能的... – lola

忘记我以前的评论，使用丹尼尔的建议 – MZimmerman6

我不会推荐尝试将HTML转换为XML。他们是不同的格式，你很可能会被烧伤。 HTML解析器存在，所以我们可以直接使用它们。

此外，为了完整性，不要试图用正则表达式解析HTML。有关于在Matlab中解析HTML的堆栈溢出问题，其中的答案建议正则表达式。做无辜的小猫一个忙，并调出来。

不幸的是，它看起来不像Matlab有一个HTML解析器作为它的库的一部分。

幸运的是，您可以在Matlab中轻松利用Java代码！
因此，Java HTML解析器是公平的游戏。看着jsoup或jtidy。拨打this question。

其实，看看这个问题，加上Comparison of HTML parsers维基百科文章（谢谢@Daniel R！），它看起来像HTMLCleaner或Jtidy可能会将HTML清理为XML。再次，我不会打扰，并直接解析HTML。

2013-12-12 19:28:22

为什么说XPath很好，即使HTML不是XML的子集？ –

仅仅因为Xpath完全是正确的工具......如果我们正在处理一个XML文件 –

你是自相矛盾的。但是不要紧。 –

回答