2016-05-13 68 views
5

我拥有数十万份法律文件(主要来自欧盟)的法律文件 - 法律,评论,法庭文件等。我试图通过算法对其进行一些理解。法律文本的NLP?

我已经建模了已知的关系(时间,this-changes-that等)。但是在单文档层面上,我希望我有更好的工具来允许快速理解。我很乐意提供想法,但是这里有一个更具体的问题:

例如:是否有NLP方法来确定与样板文件相关/有争议的部分?最近泄露的TTIP论文有成千上万张带有数据表的页面,但在某处某处可能会摧毁一个行业。

我在过去使用谷歌的新Parsey McParface和其他NLP解决方案,但虽然它们的工作非常出色,但我不确定它们在隔离意义方面表现如何。

回答

1

我看到你有一个有趣的用例。你还提到了一个语料库(这非常好)。让我来谈一下我为了从研究论文中提取症结而草拟的解决方案。

为了理解文档,您需要触发器来告诉(或训练)计算机以查找这些“触发器”。您可以使用监督学习算法来处理此问题,并在最基本的层面上实现文本分类问题的简单实现。但是这需要以前的工作,最初的领域专家帮助从文本数据中辨别出“触发器”。有一些工具可以提取句子的要点 - 例如,在句子中使用名词短语,根据共同作用分配权重并将它们表示为向量。这是你的训练数据。 这可能是将NLP并入您的域名的一个非常好的开始。

-4

请勿使用触发器。你需要的是一个词义消歧和领域适应。你想要理解文档中的意思,即理解意义的语义。您可以使用skos或json-ld格式构建术语的法律本体,并将其表示为知识图的本体论,并将其用于像tensorflow/parseymcparseface这样的依赖关系解析。或者,您可以使用基于kappa的体系结构来流式处理文档 - 例如使用CoreNLP/Tensorflow/UIMA添加中间NLP图层的kafka-flink-elasticsearch,使用redis缓存flink和elasticsearch之间的索引设置以加快处理速度。要了解相关性,您可以应用特定情况来增强搜索。此外,应用情绪分析来制定意图和真实性。您的使用案例是信息提取,汇总和语义Web /关联数据之一。由于欧盟有不同的法律制度,因此您需要首先概括真正的法律文件,然后将其缩小到与主题或地区相关的特定法律概念。您也可以在这里使用来自LDA或Word2Vec/Sense2Vec的主题建模技术。另外,Lemon也可以帮助将词法转换为语义和语义,从而将其转化为词汇,即NLP->本体 - >本体 - > NLP。从本质上讲,将聚类提供给您对命名实体识别的分类。您还可以使用聚类来帮助您构建本体或使用余弦相似性查看文档或文档集中的单词向量。但是,为了尽可能最好地将文档的稀疏性可视化。像常识推理+深度学习可能会有助于您的情况。

3

为了理解文档,您需要执行某种语义分析。你必须与他们的exemples两个主要的可能性:

使用框架语义学: http://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标注(SRL): http://cogcomp.org/page/demo_view/srl

一旦你能够从文件中提取信息,那么你可能应用一些后处理来确定哪些信息是相关的。发现哪些信息是相关的与任务有关,我认为你不能找到提取“相关”信息的通用工具。