在其中一个项目中,我们有一些存储在oracle数据库中的html文件,但是我们可能会将它保存在文件中,或者如果在某些NOSQL数据库中更合适,可以选择合适的文件 。我们给了一些关键字,并根据它们,我们需要在这些文件中找到相关的部分。这些文件是基本的报关公司,新闻文章,财务报表等,现在需要找到不同的部分假设来对下面几种:使用像犯罪,盗窃,诉讼,控告等关键字根据关键字从文档中提取相关部分或段落
风险
高排名有所变化使用关键字,如“将要离开”,某些官员的任命,‘董事选举’等
- 股东权益保护使用“股东权利”,“股东诉讼”,“财务重述”等关键字
还有其他类别,他们已经定义了要搜索的关键字。所以要求是分类明智提取的部分/段落是MOST有关。 重点是高精度找到最相关的部分。 如果技术像Solr或弹性搜索或Jackrabbit规定我们是开放的。只需要正确的方向来纠正这里所需的技术堆栈。
目前我们正在尝试Oracle text search,但我相信我们可能会有更好的程序化解决方案,并且可能会使用机器学习或NLP或Java中的某个库来实现这一点。请给我一些见解。我是一名经验丰富的Java开发人员,并且使用Machine leaning和NLP。我是语言不可知论者,所以欢迎使用任何语言或技术的良好解决方案。
如果您将数据存储在Oracle数据库文本中,将为您带来一段非常漫长的道路。学习使用词法分析器功能并修改词库。最大的好处是您可以使用贵组织已经支付的功能就地处理数据。 – APC
@APC - 我们对新技术开放。 Oracle Text搜索AFAIK仅在文档的不同部分/段落中提供不同文档之间的相关性分数。此外,我相信基于Java的解决方案将在开源社区提供,并且已经提供了这个功能,只是想知道哪一个以及如何启动。 – nanosoft