我正在为我的一个项目尝试apache打开NLP,我的要求是从电子邮件内容中检测名词并检查我们的客户数据库(此数据库由个人名称,组织名称等组成和我的搜索引擎是Solr基地)。apache openNLP chuker/POS名词检测
对于普通英语名词,默认训练模型可以正常工作(对于大多数情况),但 其中一个棘手的要求是,我们的企业组织有缩写,如OK,LET等,因此在少数情况下我需要考虑OK,LET等作为名词。
举个例子 1)“发送一些项目让,请期待延误付款” 2)“让我们去聚会”
在#1我会考虑让尽可能名词和#2例LET不是名词。
如果我能达到这个要求,我可以在搜索引擎中减少大量的误报。
任何帮助,高度赞赏。
为什么不在处理后过滤掉坏的东西呢? – dfb 2012-04-23 03:06:43
我的客户数据索引在Solr和传入的电子邮件内容搜索索引作为自由文本搜索,客户数据每天都在变化....我不知道我是否完全得到您的建议....但我想建立一些规则就像在扫描后只考虑名词基础命中(忽略非名词基础命中) – Rushik 2012-04-23 03:28:23
在你的例子中,尽管LET仍然是一个名词。你希望它被认为不是一个名词,因为它是大写的? – dfb 2012-04-23 03:50:54