朋友的 我必须从url解析描述,其中解析的内容有很少的html标记,所以我怎样才能将它转换为纯文本。如何将HTML文本转换为纯文本?
回答
使用HTML解析器像htmlCleaner
对于详细的解答:How to remove HTML tag in Java
我建议通过解析jTidy原始HTML应该给你输出,你可以写XPath表达式反对。这是我发现的刮取HTML的最强大的方法。
刚刚摆脱HTML标签的方法很简单:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
但不幸的是要求从未如此简单:
通常,<p>
和<div>
元素需要一个单独的处理,有可能与CDATA块>
字符(例如javascript)弄乱了正则表达式等。
很好,你澄清了所有的复杂性! – ankitjaininfo 2010-08-31 13:18:32
对于一些为什么这将不适用于一般情况下的背景,并且不会是f(u | oo)l-proof:[RegEx匹配除XHTML自包含标记以外的开放标记](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – 2017-04-12 13:00:29
您可以使用这一行删除html标签并将其显示为纯文本。
htmlString=htmlString.replaceAll("\\<.*?\\>", "");
如果要解析象浏览器显示,使用方法:
import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;
public class RenderToText {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of \""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
String renderedText=source.getRenderer().toString();
System.out.println("\nSimple rendering of the HTML document:\n");
System.out.println(renderedText);
}
}
我希望这将有助于分析也表在浏览器格式。
感谢, Ganesh神
downvoters请解释他们为什么downvote? – koppor 2016-12-11 21:40:30
- 1. 将HTML文本转换为纯文本
- 2. 如何将html文本转换为报表中的纯文本
- 3. 如何将纯文本转换为android中的html文本?
- 4. 将HTML转换为纯文本剃刀
- 5. Ruby:将HTML/Redcloth转换为纯文本
- 6. 将纯文本输入转换为HTML
- 7. 将html转换为纯文本jquery .ajax
- 8. 如何将纯文本转换为ODF?
- 9. 如何将RTF转换为纯文本?
- 10. 如何将纯文本转换为xsl
- 11. 如何将纯文本转换为HTML中的html格式
- 12. textarea html标签转换为纯文本
- 13. 如何将解析的文本转换为纯文本
- 14. 如何将Sql字符串文本转换为纯文本
- 15. 如何将MySQL中的RTF文本转换为纯文本?
- 16. 如何将降价(WMD)文本转换为纯文本
- 17. 如何将html转换为纯文本c#?
- 18. 如何将HTML标记转换为纯文本?
- 19. 如何将XPath元素转换为纯HTML文本?
- 20. 如何将纯文本转换为HTML(最好使用Perl)?
- 21. 如何在CakePHP中将HTML转换为纯文本?
- 22. 转换Zalgo文本为纯文本
- 23. 将脚本html标记转换为纯文本
- 24. 将html转换为文本
- 25. 如何转换为纯文本?
- 26. 将NSAttributedString转换为纯文本
- 27. 加速将RTF转换为纯文本
- 28. 将纺织品转换为纯文本
- 29. 将网页转换为纯文本..?
- 30. 将XHTML转换为纯文本
你有什么精确的要求?你需要去掉HTML标签吗?提取特定标签的内容? – 2010-08-31 10:05:18
我可以能够提取的内容,但内容有
ZCC dsdfsf ddfdfsf
sfdfdfdfdf, 像上面我得到我的数据,但我需要一个简单的纯text.without那些HTML标签 – MGSenthil 2010-08-31 10:54:37有类似的问题在这里很好的答案:http://stackoverflow.com/questions/1518675/open-source-java-library-for-html-to-text-conversion/1519726#1519726。我用杰里科,它工作正常。 – 2013-09-03 09:49:43