0
我使用boilerpipe
库来分析器新闻文章。有新闻文章包含很多样板,如版权信息,相关文章的侧面板等。Boilerpipe
删除所有的信息。是否可以返回样板信息?我需要分析器和从版权声明等中提取一些东西。保留使用锅炉的样板
另外,它是否包含对每个文本块的某种信心,以确定它是否是样板文件?
谢谢。
我使用boilerpipe
库来分析器新闻文章。有新闻文章包含很多样板,如版权信息,相关文章的侧面板等。Boilerpipe
删除所有的信息。是否可以返回样板信息?我需要分析器和从版权声明等中提取一些东西。保留使用锅炉的样板
另外,它是否包含对每个文本块的某种信心,以确定它是否是样板文件?
谢谢。
你可以得到整个文本或使用文档类样板穿越的实际文本块规定:
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document