2011-08-19 75 views
1

我知道这里已经提出了一些类似的问题,但我看到了所有这些问题,但没有人仍然满足我。如何将PDF转换为HTML?

嗯,我试过xpdf和pdftohtml都很好,但是旧的和PDF的新版本似乎不起作用。

我的问题是找到一种方法,允许我将任何PDF或DOC转换为HTML,并保持样式和结构。如果有人有东西,甚至支付完美。

+0

无法记住,如果这有支持保存为pdf,但我认为它应该有。 http://www.techsmith.com/snagit/我可以肯定的是,它可以让你截取整个网站的截图并以各种图像格式保存。至于保留文本如文字去..我不完全确定。 – Joonas

+0

@洛莱罗,这不是我正在寻找的东西,或者我误解了一些东西。 – yvan

+0

我可以看到.._ now_。我很抱歉,我没有正确阅读(一般)我不知道这两个保存的东西有多好,但你可以使用保存在网络上的Photoshop ..你可以添加链接等切片工具,并保存为HTML文件..这将保持外观100%,但它基本上只是一个图像..我wouldnt建议,如果你想你的输出是大尺寸。另外,如果你有多个页面..手动处理PDF文件不是很快。 – Joonas

回答

1

那么,我尝试了一些专门用于Linux的库,但这里是我的中间结论。

PDFtoHTML太旧,考虑不采取一切新的PDF规格,例如PDF 1.7(主要是因为它使用的xpdf 2.02,而Xpdf是已经在他的第3版)

相反PDFTOHTML我发现Poppler继续PDFtoHTML开发,加上一些非常有用的新的utils。实际上,在开放源代码Poppler中,使我的复杂PDF变得更好。 Here一个几乎相等我必须使用。

最后,这是我要使用的。 ImageMagick + Poppler。我会将我的PDF转换为图像,并使用PDFtoHTML Poppler的XML输出在我的图像上添加一个新图层。

+0

其实,我已经检查过了,PDFtoHTML基于xpdf 3: pdftohtml版本0.36 http://pdftohtml.sourceforge.net/,基于Xpdf版本3.00 版权所有1999-2003 Gueorgui Ovtcharov和Rainer Dorsch Copyright 1996- 2004 Glyph&Cog,LLC –

+0

您是否尝试过'pdftohtml -c file.pdf file.htm'? –

1

像你一样,我一直在寻找从PDF到HTML或更好的XHTML的自动转换工具。那么,这只是双方,但毕竟http://www.pdfonline.com(在线PDF到HTML)为我做了最好的工作。它甚至能够过滤并正确显示表格和段落,而不仅仅是短语!

这还不够我的工作,所以我手动生成了一个模板文件。