我实际上正在Java中开发一个文本解析器,并且我被要求用它解析HTML来增强它。 解析器的目的是将解析的文件分成3个其他文件,一个包含文件中包含的所有单词,一个包含所有语句,另一个包含所有问题。JSoup - 按标记解析HTML标记
* .txt部分工作正常,但解析HTML时出现问题。
我创建一个扩展名为* .txt的临时文件,并通过它在我的文本解析器,但如果我通过与链接的HTML文件,该文件是这样形成的网址:
<!DOCTYPE html>
<head>
... some HTML here ...
</head>
<body>
<ul class="some_menu">
<li class="some_menu_item">n1</li>
<li class="some_menu_item">n2</li>
<li class="some_menu_item">n2</li>
</ul>
<div>
This is a question ?
This is a sentence .
... some other text ...
</div>
</body>
</html>
问题文件将充满了:n1 n2 n3 This is a question
所以,我只是想知道,有没有一种方法来解析JSoup标签的标签,所以我可以添加一个换行每次块关闭?
如果您需要一些新的信息,请不要问!
编辑:我应该有3个输出文件,这些文件,在这个例子中:
一个与所有的话
n1 n2 n3 This is a question sentence ... some other words ...
一个与所有的句子
This is a sentence
其中包含所有问题
This is a question
TimmyM
是的,您可以逐个遍历标签并单独获取文本。但是,我不太明白你在这里做什么。你能举一个你想要的这个HTML的例子吗? –