-2

我想写一个学习算法,它可以自动创建文章摘要。小结Algo小说:监督学习

e.g,也有一些科幻小说(一类考虑到它作为一个过滤器)的PDF格式。我想要创建一个自动创建摘要的过程。 我们可以提供一些样本数据来实施监督学习方法。 请建议我如何正确执行此操作。

我是初学者&上午追求安德鲁吴课程,并意识到一些常见的算法(线性reg,logistic,神经网络)+ Udacity统计课程,并准备更深入地学习NLP,深入学习等,但动机是解决这个。 :) 在此先感谢

+3

这是一个广泛而未解决的话题。我认为这是一个初学者解决这种问题的好主意。如果你真的觉得你必须 - 只要谷歌任何最近关于这个主题的论文,并试图重新实现他们的想法(正如我所说 - 这是一个广泛和未解决的问题,有一些“解决方案”的东西,而不是单一的其中**真的**起作用)。 – lejlot

回答

3

的关键词是Automatic Summarization

一般而言,有两种方法来自动总结:萃取抽象

  • 提取方法通过选择原文中现有单词,短语或句子的一个子集来形成摘要。
  • 写意方法建立一个内部的语义表达,然后用自然语言生成技术来创建摘要更接近什么人可能会产生。

写意总结是一个很大的困难。 Alexander M.Rush,Sumit Chopra,Jason Weston(基于论文here的源代码)在A Neural Attention Model for Abstractive Sentence Summarization中描述了一种有趣的方法。

A“简单”的方法在Word(AutoSummary Tool)时:

自动编写通过分析文档和将一个得分指定给每个句子确定关键点。包含文档中经常使用的单词的句子被赋予更高的分数。然后,您可以选择摘要中显示得分最高的句子的百分比。

您可以选择是否在文档中突出重点,在文档的顶部插入的执行摘要或抽象的,创建一个新文档,并把内容存在,或隐藏一切,但总结。

如果你选择突出重点或隐藏一切,但总的来说,可以将文档(文档的其余部分是隐藏的)中只显示了关键点和文档中突出显示它们之间进行切换。在您阅读的时候,您还可以随时更改详细程度。

无论如何,自动数据(文本)摘要是许多正在进行的研究的机器学习/数据挖掘的活跃领域。您应该开始阅读一些很好的概述: