2012-02-09 57 views
0

我正在开发一个可以从不同网页获取文本信息的应用程序,并将其汇总到一个页面中。例如,假设我在印度教,印度时报,政治家等不同的网页上有新闻。现在我的应用程序应该从这些页面中的每一个中提取重要的点,并将它们合并为一个新闻。该应用程序基于Web内容挖掘的概念。作为此领域的初学者,我无法理解在何处开始。我已经通过研究论文解释了噪声消除作为构建此应用程序的第一步。因此,如果我得到一个新闻网页,第一步就是从页面中提取主要新闻,不包括超链接,广告,无用图片等。我的问题是我该如何做到这一点?请给我一些很好的教程,解释使用Web内容挖掘这种应用程序的实现。或者至少给我一些提示如何实现它?如何从网页中提取文本内容?

回答

9

您可以使用readabilityboilerpipe这两个用于此任务的开源工具。对于教程,您应该阅读这两个项目的代码&文档。

+0

我听说过关于boilerpipe及其相当不错,但我想自己做,这样我就可以从中吸取教训。请告诉我如何才能做到这一点?应该遵循哪些步骤? – 2012-02-09 18:02:24

+2

搜索Google学者的论文。阅读现有实现的代码。构建网站评估语料库和正确的文本提取。计算每个提取器的工作原理。看看错误,考虑如何解决它们,改进提取器。 – 2012-02-09 18:28:28

+0

感谢您的帮助。 – 2012-02-09 19:34:39