0

在其中一个项目中,我们有一些存储在oracle数据库中的html文件,但是我们可能会将它保存在文件中,或者如果在某些NOSQL数据库中更合适,可以选择合适的文件 。我们给了一些关键字,并根据它们,我们需要在这些文件中找到相关的部分。这些文件是基本的报关公司,新闻文章,财务报表等,现在需要找到不同的部分假设来对下面几种:使用像犯罪,盗窃,诉讼,控告等关键字根据关键字从文档中提取相关部分或段落

  • 风险

  • 高排名有所变化使用关键字,如“将要离开”,某些官员的任命,‘董事选举’等

  • 股东权益保护使用“股东权利”,“股东诉讼”,“财务重述”等关键字

还有其他类别,他们已经定义了要搜索的关键字。所以要求是分类明智提取的部分/段落是MOST有关。 重点是高精度找到最相关的部分。 如果技术像Solr或弹性搜索或Jackrabbit规定我们是开放的。只需要正确的方向来纠正这里所需的技术堆栈。

目前我们正在尝试Oracle text search,但我相信我们可能会有更好的程序化解决方案,并且可能会使用机器学习或NLP或Java中的某个库来实现这一点。请给我一些见解。我是一名经验丰富的Java开发人员,并且使用Machine leaning和NLP。我是语言不可知论者,所以欢迎使用任何语言或技术的良好解决方案。

+0

如果您将数据存储在Oracle数据库文本中,将为您带来一段非常漫长的道路。学习使用词法分析器功能并修改词库。最大的好处是您可以使用贵组织已经支付的功能就地处理数据。 – APC

+0

@APC - 我们对新技术开放。 Oracle Text搜索AFAIK仅在文档的不同部分/段落中提供不同文档之间的相关性分数。此外,我相信基于Java的解决方案将在开源社区提供,并且已经提供了这个功能,只是想知道哪一个以及如何启动。 – nanosoft

回答

0

你似乎要解决这个问题的方向是单词/短语搜索[简单]与语义搜索[硬]之一。多年来有好几个人开始研究这种解决方案[我遇到了一家苏格兰公司的人员,他们正在构建一个基于Java的解决方案,但我不记得这个名字]。在语义搜索中出现问题的地方在于,存在如此多的问题域[和域内非常相关的分类法],其中语义对于相同的单词或短语而言是不同的。当然,有些人通过对数据进行元标记(例如:图像,视频,复杂文档),然后搜索元数据,从而使“语义”工作变得更轻松。

几年前,当我还是企业架构师时,我们使用Verity从本质上说就是Google。我不知道它是否仍然是一款产品,但它利用Oracle Text并将其分层。

当天,森林人研究所称:“将数据,内容和文本与有机信息抽象结合起来”,但我不知道现在的实践状态在哪里。

我敢打赌谷歌可能有一些工具可以使用:)。

听起来像一个有趣的项目!

+0

Verity被Autonomy接管。随后惠普通过Autonomy购买了一个颇具争议的高价。由此产生的混乱导致调查和辞职,谁知道这些产品是否仍在使用? – APC