正则表达式剥离HTML标签

我有一个我在内容管理系统上挂了一段时间的coldfusion脚本。它使用正则表达式从内容中去除任何糟糕的标签和字符。正则表达式剥离HTML标签

我需要停止此脚本以去除任何<object>和标记。

我给它一个去，但我认为这是超出了我的正则表达式技能。

<cfparam name="Attributes.allowedclasses" default=""> 

<!--- turn allowed classes list to regular expression ---> 
<cfset Attributes.allowedclasses = Replace(Attributes.allowedclasses, ",", "|", "all")> 

<cfset vBody="<body style='font-family:Verdana; font-size:12px;'>"> 
<cfset vStart="<!DOCTYPE html PUBLIC '-//W3C//DTD XHTML 1.0 Transitional//EN' 'http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd'><html xmlns='http://www.w3.org/1999/xhtml' lang='en' xml:lang='en'><head><title>Title</title></head>#vBody#"> 
<cfset vEnd="</body></html>"> 

<cfloop list="#Attributes.varnames#" index="theVariable"> 

    <cfset vIntVar=evaluate("caller.#theVariable#")> 

    <cf_bocctrimformvars varnames="vIntVar" allowhtml="yes" quotes="unescape" allowPound="yes"> 

    <cfset vIntVarDebug=vIntVar> 

    <!--- strip copy and paste word etc code formatting ---> 

    <cfset vIntVar=ReReplaceNoCase(vIntVar, "</?[a-z0-9-=""'!\$\?%&\*\[email protected]~##;,\\]*:[a-z0-9 -=""'!\$\?%&\*\[email protected]~##;,\\]*>", "", "all")> 

    <!--- stop certain classes being stripped out ---> 
    <cfif ListLen(Attributes.allowedclasses) NEQ 0> 
     <cfset vIntVar=ReReplaceNoCase(vIntVar, '<span class="(#Attributes.allowedclasses#)">([\s\S]*?)</span>', '<excludespan classexclude="\1">\2</excludespan>', 'all')> 

     <!--- stop other classes being stripped out ---> 
     <cfset vIntVar=ReReplaceNoCase(vIntVar, '<([a-z0-9]+) class="(#Attributes.allowedclasses#)"[^>]*>', '<\1 classexclude="\2">', 'all')> 
    </cfif> 

    <!--- strip out span and font tags ---> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "</?(span|font)[^>]*>", "", "all")> 

    <!--- strip out rest of styles/classes ---> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "<([a-z0-9]+) (style|class)=[^>]*>", "<\1>", "all")> 

    <!--- reset classes which shouldn't be stripped out ---> 
    <cfif ListLen(Attributes.allowedclasses) NEQ 0> 
     <cfset vIntVar=ReReplaceNoCase(vIntVar, '<excludespan classexclude="([a-z0-9-]+)"[^>]*>', '<span class="\1">', 'all')> 
     <cfset vIntVar=ReplaceNoCase(vIntVar, '</excludespan>', '</span>', 'all')> 

     <cfset vIntVar=ReReplaceNoCase(vIntVar, '<([a-z0-9]+) classexclude="([a-z0-9-]+)"[^>]*>', '<\1 class="\2">', 'all')> 
    </cfif> 



    <cfset vIntVar=ReReplaceNoCase(vIntVar, "<\?xml[^>]*>", "", "all")> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "<p>([[:space:]])*</p>", "", "all")> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "</?U>", "", "all")> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "</?DIV[^>]*>", "", "all")> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "</?PRE>", "", "all")> 
    <cfset vIntVar=ReplaceNoCase(vIntVar, 'target=""', '', 'all')> 

    <!--- 
    DG 19/9/2004: fix put in to swap round <p> and <a> tags if a single <p> is inside an <a> 
    (which html tidy doesn't like 
    ---> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "<a([[:print:]]*)>[[:space:]]*<p>([[:print:]]*)</p>([[:space:]]*)</a>", "<p><a\1>\2</a></p>", 'all')> 

    <cfset vIntVar=vStart & vIntVar & vEnd> 

    <cflock name="tidy" type="exclusive" timeout="10"> 
     <cfscript> 
     TidyObj = CreateObject("COM", "TidyCOM.TidyObject"); 
     TidyOptions = TidyObj.Options; 
     TidyOptions.Doctype = "omit"; 
     TidyOptions.TidyMark = false; 
     TidyOptions.OutputXml = false; 
     TidyOptions.InputXml = false; 
     TidyOptions.OutputXhtml = true; 
     TidyOptions.ShowWarnings = false; 
     TidyOptions.DropEmptyParas = true; 
     TidyOptions.Quiet = true; 
     TidyOptions.Indent = 0; 
     TidyOptions.Wrap = 0; 
     TidyOptions.QuoteAmpersand = true; 

     vIntVar = TidyObj.TidyMemToMem(vIntVar); 

     TidyObj = ""; 
     </cfscript> 
    </cflock> 


    <!--- strip any image tags inserted by drag and drop etc ---> 
    <cfset vIntVar=ReReplaceNoCase(vIntVar, "<img [^>]*>", "", "all")> 


</cfloop>

来源

2010-11-25 Sam

我应该警告你，要求解析-html-regex问题往往会在这里有点皱眉 - 看到这个：http://stackoverflow.com/questions/1732348/regex-match-open-tags-除了-xhtml-self-contained-tags/1732454＃1732454 – 2010-11-25 10:48:52

我可以理解它不受欢迎。这是一个老脚本。现在我只需要一个快速修复，而不是重写它。 – Sam 2010-11-25 11:00:26

我orangepips同意，你应该问一个更具体的问题，但我也喜欢挑战。我曾尝试使用REGEX解析HTML，并可以证明它不是一个好的解决方案，特别是当您查看整个文档而不仅仅是一个简单的字符串时。但是，有时您必须在狭窄的空间中工作，而且您没有太多选择。

我查看了所有您在此处使用的REGEX表达式，并将它们全部针对以下对象标记运行。没有一个人发现了这个对象标签，这让我相信这个问题可能在TidyCOM中。我戳了一下寻找有关TidyCOM的信息，以及我可以找到的最新的东西是从2001年左右开始的。

我知道您只是希望修复此脚本并继续前进，但这可能是不可能的。您可能会开始考虑将这些遗留问题迁移到更新的平台中。

如果您想要确定问题在连接vStart，vIntVar和vEnd后将vIntVar变量输出到文本文件的位置。当然，你也可以使用CF调试器，但是我可以记得，这并不是最简单的工作。

对象标记我用来测试的表达式：

<object classid="clsid:F08DF954-8592-11D1-B16A-00C0F0283628" id="Slider1" width="100" height="50"> 
    <param name="BorderStyle" value="1" /> 
    <param name="MousePointer" value="0" /> 
    <param name="Enabled" value="1" /> 
    <param name="Min" value="0" /> 
    <param name="Max" value="10" /> 
</object>

如果你需要一些帮助理解什么是正则表达式的表情都在做，我发现Expresso是一个伟大的工具。还有其他的，但这是我多年来使用的一个，它完成了工作。

来源

2010-11-26 01:30:14

正则表达式剥离HTML标签

回答

相关问题