我想写一个学习算法,它可以自动创建文章摘要。小结Algo小说:监督学习
e.g,也有一些科幻小说(一类考虑到它作为一个过滤器)的PDF格式。我想要创建一个自动创建摘要的过程。 我们可以提供一些样本数据来实施监督学习方法。 请建议我如何正确执行此操作。
我是初学者&上午追求安德鲁吴课程,并意识到一些常见的算法(线性reg,logistic,神经网络)+ Udacity统计课程,并准备更深入地学习NLP,深入学习等,但动机是解决这个。 :) 在此先感谢
我想写一个学习算法,它可以自动创建文章摘要。小结Algo小说:监督学习
e.g,也有一些科幻小说(一类考虑到它作为一个过滤器)的PDF格式。我想要创建一个自动创建摘要的过程。 我们可以提供一些样本数据来实施监督学习方法。 请建议我如何正确执行此操作。
我是初学者&上午追求安德鲁吴课程,并意识到一些常见的算法(线性reg,logistic,神经网络)+ Udacity统计课程,并准备更深入地学习NLP,深入学习等,但动机是解决这个。 :) 在此先感谢
的关键词是Automatic Summarization。
一般而言,有两种方法来自动总结:萃取和抽象。
写意总结是一个很大的困难。 Alexander M.Rush,Sumit Chopra,Jason Weston(基于论文here的源代码)在A Neural Attention Model for Abstractive Sentence Summarization中描述了一种有趣的方法。
A“简单”的方法在Word(AutoSummary Tool)时:
自动编写通过分析文档和将一个得分指定给每个句子确定关键点。包含文档中经常使用的单词的句子被赋予更高的分数。然后,您可以选择摘要中显示得分最高的句子的百分比。
您可以选择是否在文档中突出重点,在文档的顶部插入的执行摘要或抽象的,创建一个新文档,并把内容存在,或隐藏一切,但总结。
如果你选择突出重点或隐藏一切,但总的来说,可以将文档(文档的其余部分是隐藏的)中只显示了关键点和文档中突出显示它们之间进行切换。在您阅读的时候,您还可以随时更改详细程度。
无论如何,自动数据(文本)摘要是许多正在进行的研究的机器学习/数据挖掘的活跃领域。您应该开始阅读一些很好的概述:
这是一个广泛而未解决的话题。我认为这是一个初学者解决这种问题的好主意。如果你真的觉得你必须 - 只要谷歌任何最近关于这个主题的论文,并试图重新实现他们的想法(正如我所说 - 这是一个广泛和未解决的问题,有一些“解决方案”的东西,而不是单一的其中**真的**起作用)。 – lejlot