文本 - 如何将段落分成更小的句子（没有指示句末结束）

我正在使用R和Python，并试图在一定程度上学习基于文本的分析和NLP。文本 - 如何将段落分成更小的句子（没有指示句末结束）

问题：我如何拆分句子是句子像下面

句子=我喜欢我喜欢的系统，我不喜欢被人跟踪过程中的应用程序组合。

我想这句话分成

我喜欢的应用程序
我喜欢的系统
我不喜欢这个过程所遵循

注：我能够分割一个像下面这样的句子，因为它有一个.来表示句子的结尾

句子=我喜欢这个应用程序。我喜欢这个系统。我不喜欢这个过程。

来源

2017-09-06 Mangal Pandey

我可以提出一个方法，可以帮助你，因为你没有句点，就可以进行如下：

套用句法分析提取语法性质的段落。

例子：我喜欢我喜欢的系统，我不喜欢这个过程所遵循

会产生应用程序：PP VB DT NN ...

要提取的句法分析，我建议使用Stanford Parser。

PP：人称代词

VB：动词

DT：确定

NN：名词

你可以看到，一个句子有可以用来分割句法模式段落变成句子。
构建句子可能的句法树模型。通过说一个模型，我的意思是一个文件/数据库，其中包含句子的句法构建。

例：一个模型可以包含下列行：

PP VB DT NN - >（I吃苹果）

VB ADJ NN - >（创建新方法）

要构建您的模型，您可以分析许多句子（您的系列句子越大，您的系统就越准确）。您可以使用由您自己构建的corpus。
一旦你建立你的模型，你就可以开始编写你的程序。您的算法的主线将为：

1-接收输入段落（作为输入或文件）。

2-应用Stanford Parser生成段落的句法树。

3-开始分裂基于该段的部分进行比较的段落与先前构造语法树（你的句子型号 - >你的模式）

你需要衡量的部分的similarity带有句子模型的段落。

我试着给你一个关于如何做你想做的想法/方法。

可能您需要使用NLTK（自然语言工具包）。

来源

2017-09-06 08:17:35 ziMtyth

谢谢ZimYth。我正在尝试这种方法。一旦我到达某处，我会发布代码和更新。在这一点上，我正在学习NLTK使用基于句法树模型的解析。 –

@MangalPandey这里是一本关于自然语言处理（Daniel Jurafsky和James H. Martin的言语和语言处理）的精彩书籍。http://www.deepsky.com/~merovech/voynich/voynich_manchu_reference_materials/PDFs/jurafsky_martin.pdf。我只是喜欢这本书！，如果这是一个有用的答案，也许你可以推测它;） – ziMtyth

文本 - 如何将段落分成更小的句子（没有指示句末结束）

回答

相关问题