对于家庭作业,我必须编写一个程序,从网站上剪下HTML,然后以某种方式在网站中查找短语。当我说短语时,我的意思是某种组织文本的任意方式,以便将彼此靠近的单词放在同一组中。我知道这听起来确实不清楚,但是作业说明我们如何做到这一点取决于我们如何找到“短语”的解释。JSOUP查找字词组
目前,我有如下所示的代码:
Document doc = Jsoup.connect("http://oracle.com/").get();
String html = doc.body().toString();
System.out.println(html);
哪位能给我的所有的一些网页出现在解析出所有的HTML不同的话一个体面的打印输出。
我的主要问题是我想不出一种方法来解析HTML,以便我可以以某种方式将这些任意组合在一起(并且我不知道我可以使用什么样的标准来任意形成这些“组” “的话)。
我知道这个问题听起来很糟糕,但我不知道我怎么能说出来,而且我真的不知道我能做什么。我得到的任务是非常不清楚的,当被要求澄清时,我的教授只是让我自己解释。我想知道是否有人对如何解析html有任何想法,以便可以过滤出与我目前输出相似的单词(可能在类似的html标签或其他内容中),除了可能在每个“短语“就像换行符或我可以解析的东西。
感谢您的任何想法或建议。