2013-06-04 112 views
2

我正在处理2 pdf比较哪里第一次提取PDF以获取PDF样式.PDF样式被提取并转换为html。那么最后我比较2个HTML文本。比较两个HTML

对于PDF提取我用itextsharp

下面是代码

this.result.AppendFormat(
    "<tr><td>{0}</td><td>{1}</td><td>{2}pt</td><td>{3}</td><td>{4}</td><td>", 
    Form1.j, curFont, font_size_client, fontweight, fontstyle); 
     } 
    this.result.Append(renderInfo.GetText()); 
     } 

    public string GetResultantText() 
    { 
     if (result.Length > 0) 
     { 
      result.Append("<tr><td></td><td></td>"); 
     } 
     return result.ToString(); 
    } 

这是我用于转换的代码。我的问题是一个样本PDF,我用HTML文本书本身作为文本比较。在HTMLbook中有一些样式,如背景颜色,字体大小附加到文本。而不是文字,它采取了风格。你能告诉我如何提取风格。是我选择比较2 PDF的方法是错误的。或任何其他方法。

回答

0

将其提取到HTML后,您可以使用jQuery来获取.HTML()代码。

到这里看看:https://api.jquery.com/html/

之后,你可以比较两个结果。

+0

也许这是更清楚http://www.w3schools.com/jquery/html_html.asp –