我的项目很简单:我有一个链接到一个网站,有不同的化学物质的多个信息,我想提取一些数据,并把它放入pdf。事情是我想保留原始HTML的格式(当然使用它的CSS)。物质的 例子:http://www.molbase.com/en/msds_1659-31-0-moldata-2.html#tabs
我用jsoup来读取表的页面中,MSDS一个底部的HTML,含有有关物质的不同信息的多个部分,但我真的不知道该怎么将确切的HTML格式保存到我的pdf文件中。我也尝试过使用iText,但它给了我“缺少结束标记”的错误,如果它工作,它会打印整个页面,而不仅仅是msds表格。
这是我试图做的,但不是有效的:
Document docu = Jsoup.connect(urlbun).get();
Element tableHeader = docu.select("div[class=\"msds\"]")
.first();
String[] finSyn = tableHeader.text().split(" ");
String moreText =" ";
我试图拆该网页有一个DIV下(“类=‘MSDS’”),但我的文字无法找到一种方法来分裂它的好方法。
请问,请给我一个关于怎么做的提示?即使格式不同,我希望能够以相同的方式显示信息,例如缩进等。
谢谢!