2013-10-01 62 views
0

我使用boilerpipe库来分析器新闻文章。有新闻文章包含很多样板,如版权信息,相关文章的侧面板等。Boilerpipe删除所有的信息。是否可以返回样板信息?我需要分析器和从版权声明等中提取一些东西。保留使用锅炉的样板

另外,它是否包含对每个文本块的某种信心,以确定它是否是样板文件?

谢谢。

回答

1

你可以得到整个文本或使用文档类样板穿越的实际文本块规定:

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url)); 
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument(); 
// doc.getText(true, true) will give you all the text 
// doc.getTextBlocks will let you traverse the document