2
我正在处理2 pdf比较哪里第一次提取PDF以获取PDF样式.PDF样式被提取并转换为html。那么最后我比较2个HTML文本。比较两个HTML
对于PDF提取我用itextsharp
下面是代码
this.result.AppendFormat(
"<tr><td>{0}</td><td>{1}</td><td>{2}pt</td><td>{3}</td><td>{4}</td><td>",
Form1.j, curFont, font_size_client, fontweight, fontstyle);
}
this.result.Append(renderInfo.GetText());
}
public string GetResultantText()
{
if (result.Length > 0)
{
result.Append("<tr><td></td><td></td>");
}
return result.ToString();
}
这是我用于转换的代码。我的问题是一个样本PDF,我用HTML文本书本身作为文本比较。在HTMLbook中有一些样式,如背景颜色,字体大小附加到文本。而不是文字,它采取了风格。你能告诉我如何提取风格。是我选择比较2 PDF的方法是错误的。或任何其他方法。
也许这是更清楚http://www.w3schools.com/jquery/html_html.asp –