2012-07-09 50 views
5

可能重复:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft input删除MS Word的 “HTML” 使用PHP

我允许客户在一个富文本编辑器中输入笔记和最近才升级到ckEditor 3x,默认剥离MS字类,样式和注释(当用户粘贴到编辑器对象中时)。所以向前迈进,我都准备好了。

我最近有一个需要清理5年价值的笔记,其中一些笔记有MS word生成的HTML嵌入。我需要循环这些文本并清理它。

我不需要去掉所有的span标签,只有那些被微软认定的标签。

我试过使用HTMLCleaner,但它并没有删除MS生成的HTML。 http://word2cleanhtml.com完全符合我的要求,但是开发人员目前不提供API供公众使用(截至2012年7月9日)。

我在过去的几周里一直在寻找这样的班级,并没有太多的运气。你们有没有找到想要分享的有用课程?

+0

为了澄清,我需要一个服务器端类,我可以在我的现有应用程序中嵌入。在马里奥提到的SO问题/答案中有一些很棒的工具,但是我发现它们大部分都是针对一次性转化而设计的 - 或者使用curl发布到他们的网站。用PHI不能做到这一点。 – 2012-07-09 17:55:14

+0

马里奥,你的网址去哪了?它们很有用,也是我关闭的理由之一。它们应该对OP来说也是有用的,以便使用回溯脚本来进行HTML清理。 – halfer 2012-07-09 17:57:12

+0

我希望这个问题将被留下,因为maxhud的答案解决了我对T.的问题。htmlpurifier是一个类,而不是用户浏览和上传到的网站。 – 2012-07-09 20:53:38

回答