如何从网页中提取文本内容？

我正在开发一个可以从不同网页获取文本信息的应用程序，并将其汇总到一个页面中。例如，假设我在印度教，印度时报，政治家等不同的网页上有新闻。现在我的应用程序应该从这些页面中的每一个中提取重要的点，并将它们合并为一个新闻。该应用程序基于Web内容挖掘的概念。作为此领域的初学者，我无法理解在何处开始。我已经通过研究论文解释了噪声消除作为构建此应用程序的第一步。因此，如果我得到一个新闻网页，第一步就是从页面中提取主要新闻，不包括超链接，广告，无用图片等。我的问题是我该如何做到这一点？请给我一些很好的教程，解释使用Web内容挖掘这种应用程序的实现。或者至少给我一些提示如何实现它？如何从网页中提取文本内容？

来源

2012-02-09 dark_shadow

您可以使用readability或boilerpipe这两个用于此任务的开源工具。对于教程，您应该阅读这两个项目的代码&文档。

来源

2012-02-09 17:17:56

我听说过关于boilerpipe及其相当不错，但我想自己做，这样我就可以从中吸取教训。请告诉我如何才能做到这一点？应该遵循哪些步骤？ – 2012-02-09 18:02:24

搜索Google学者的论文。阅读现有实现的代码。构建网站评估语料库和正确的文本提取。计算每个提取器的工作原理。看看错误，考虑如何解决它们，改进提取器。 – 2012-02-09 18:28:28

感谢您的帮助。 – 2012-02-09 19:34:39

如何从网页中提取文本内容？

回答

相关问题