0
我遍历整个html文件,逐个字符地搜索并且我想要获取html标记。在html文件中查找JavaScript脚本
如果我遇到'<'这意味着对我来说,是想要的标签的开始,并分别考虑'>'作为结束。当然,JavaScript脚本里面可能有'<'以及'>',所以我的程序会在发生时将它们视为想要的标签。我想防止这样的错误。
是否有任何正则表达式,我可以使用它或任何想法来做到这一点? 我试图使用JavaScript编程语言关键字检查脚本,但是这种方法并不能说服我。
请参阅[RegEx匹配开放标签,除了XHTML独立标签](http://stackoverflow.com/questions/1732348 /正则表达式匹配开放标签,除了-XHTML-自足标签)。使用DOM解析器。 –
你想要做的是非常非常非常困难,因为你可以在JavaScript代码中找到字符'<' and '>':1)比较,2)字符串,3)注释(内联和多行),4)文字正则表达式模式好运处理这个),5)移位运算符,并且不要忘记最终的CSS字符串和注释。总之,你不能用简单的模式来处理这个问题。 –
JS有现有的HTML解析器,你为什么试图从头开始写一个? – zzzzBov