2015-04-04 22 views
0

社区!使用Java将html部分打印为pdf

我的项目很简单:我有一个链接到一个网站,有不同的化学物质的多个信息,我想提取一些数据,并把它放入pdf。事情是我想保留原始HTML的格式(当然使用它的CSS)。物质的 例子:http://www.molbase.com/en/msds_1659-31-0-moldata-2.html#tabs

我用jsoup来读取表的页面中,MSDS一个底部的HTML,含有有关物质的不同信息的多个部分,但我真的不知道该怎么将确切的HTML格式保存到我的pdf文件中。我也尝试过使用iText,但它给了我“缺少结束标记”的错误,如果它工作,它会打印整个页面,而不仅仅是msds表格。

这是我试图做的,但不是有效的:

Document docu = Jsoup.connect(urlbun).get(); 
     Element tableHeader = docu.select("div[class=\"msds\"]") 
       .first(); 
     String[] finSyn = tableHeader.text().split(" "); 
     String moreText =" "; 

我试图拆该网页有一个DIV下(“类=‘MSDS’”),但我的文字无法找到一种方法来分裂它的好方法。

请问,请给我一个关于怎么做的提示?即使格式不同,我希望能够以相同的方式显示信息,例如缩进等。

谢谢!

回答