2017-09-06 38 views
1

我正在使用RPython,并试图在一定程度上学习基于文本的分析和NLP文本 - 如何将段落分成更小的句子(没有指示句末结束)

问题:我如何拆分句子是句子像下面

句子=我喜欢我喜欢的系统,我不喜欢被人跟踪过程中的应用程序组合。

我想这句话分成

  1. 我喜欢的应用程序
  2. 我喜欢的系统
  3. 我不喜欢这个过程所遵循

注:我能够分割一个像下面这样的句子,因为它有一个.来表示句子的结尾

句子=我喜欢这个应用程序。我喜欢这个系统。我不喜欢这个过程。

VJ

回答

1

我可以提出一个方法,可以帮助你,因为你没有句点,就可以进行如下:

  • 套用句法分析提取语法性质的段落。

    例子:我喜欢我喜欢的系统,我不喜欢这个过程所遵循

    会产生应用程序:PP VB DT NN ...

    要提取的句法分析,我建议使用Stanford Parser

    PP:人称代词

    VB:动词

    DT:确定

    NN:名词

    你可以看到,一个句子有可以用来分割句法模式段落变成句子。

  • 构建句子可能的句法树模型。通过说一个模型,我的意思是一个文件/数据库,其中包含句子的句法构建。

    :一个模型可以包含下列行:

    PP VB DT NN - >(I吃苹果)

    VB ADJ NN - >(创建新方法)

    要构建您的模型,您可以分析许多句子(您的系列句子越大,您的系统就越准确)。您可以使用由您自己构建的corpus

  • 一旦你建立你的模型,你就可以开始编写你的程序。您的算法的主线将为:

    1-接收输入段落(作为输入或文件)。

    2-应用Stanford Parser生成段落的句法树。

    3-开始分裂基于该段的部分进行比较的段落与先前构造语法树(你的句子型号 - >你的模式)

    你需要衡量的部分的similarity带有句子模型的段落。

我试着给你一个关于如何做你想做的想法/方法。

可能您需要使用NLTK(自然语言工具包)。

+0

谢谢ZimYth。我正在尝试这种方法。一旦我到达某处,我会发布代码和更新。在这一点上,我正在学习NLTK使用基于句法树模型的解析。 –

+0

@MangalPandey这里是一本关于自然语言处理(Daniel Jurafsky和James H. Martin的言语和语言处理)的精彩书籍。http://www.deepsky.com/~merovech/voynich/voynich_manchu_reference_materials/PDFs/jurafsky_martin.pdf。我只是喜欢这本书!,如果这是一个有用的答案,也许你可以推测它;) – ziMtyth