2009-07-21 30 views
1

我在阅读我认为只是.html文件中的基本文本,并且我想将其显示在asp.net网页上。重新格式化wysiwyg生成的html文件

我把一些CSS格式,但它似乎并没有完全工作。我到它的底部,现在的问题,我看是什么,我认为是原始文本,真可谓是:

<SPAN style="FONT-SIZE: 16pt"> 
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal         
align=center><SPAN style="FONT-SIZE: 16pt"><?xml:namespace prefix = o ns = 
"urn:schemas- microsoft-com:office:office" /><o:p></o:p></SPAN></P><SPAN 
style="FONT-SIZE: 16pt"><o:p> 
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal align=center><SPAN 
style="FONT-SIZE: 16pt">General Manager’s Corner<o:p></o:p></SPAN></P> 
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal align=center><SPAN 
style="FONT-SIZE: 16pt">July 2009<o:p></o:p></SPAN></P> 
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal align=center><SPAN 
style="FONT-SIZE: 16pt"><o:p>&nbsp;</o:p></SPAN></P> 

这看起来像从Microsoft Word或东西来跟一些内嵌格式。

有反正我可以:

  1. 删除所有的内联格式化
  2. 有我的CSS覆盖内嵌格式。

回答

0

我只是手工编码的东西这做了一堆查找和替换。花了太多时间尝试所有几乎完成这项工作的第三方工具。

0

行内格式化更具体,所以我非常肯定每次谈到CSS时都会胜出。

作为去除实际内嵌格式本身就是一个快速谷歌出现了几个选项,你可以使用一些免费的有些不是

0

您可能能够使用!重要黑客覆盖内联样式在CSS。

至于删除内联格式,您可以尝试使用Google搜索paste from word或提出自己的正则表达式来放弃标记名本身之后的标记中的所有内容。

1

有一个小的API用于剥离由单词WordOff生成的HTML。也许你可以使用那个?

+0

如果您想尝试一下,请访问http://wordoff.org/ – 2009-07-21 15:12:44

0

你可以申请几个简单的正则表达式模式来删除格式化:

对于风格:

style="[^"]*" 

对于类和调整:

(align|class)=[A-Za-z]* 

要使用表达式玩,你可以使用这个在线工具:http://www.regextester.com/