我有一个HTML文件,其中可能包含Javascript,PHP以及所有这些人可能会或可能不会放入其HTML文件的内容。在HTML中查找注释
我想从此html文件中提取所有评论。
我可以指出两个问题在做这个:
什么是一个语言的评论可能不会出现在其他评论。
在Javascript中,其余行使用
//
标记进行了注释。但是其中的URL也包含//
,因此我可以很好地删除部分网址,如果我只用//
替换//
,然后再用 替换该行的其余部分即可。
所以这不是一个小问题。
是否有任何解决方案可以满足这些需求?
有没有人已经这样做?
你是对的,这不是微不足道的。为了可靠地删除注释,您需要完全解析文件(PHP,HTML和Javascript)。如果可能,我建议使用PHP;虽然我更喜欢Perl,但PHP的工具本身比Perl工具更好地处理PHP。这里是让你开始的东西:http://stackoverflow.com/questions/503871/best-way-to-automatically-remove-comments-from-php-code。然后,您只需在PHP中查找HTML和JavaScript解析器就可以对文件的这些部分进行同样的操作。 – dan1111
为什么你会在你的HTML文件中使用PHP?我只有CSS,JavaScript和HTML,然后是谷歌的“HTML Minifier”,可以删除评论,空白和一般“瘦”你的网页的产品。 –
@RB。预渲染? – Jivings