我们有很多文字(大部分是用英文书写的),这些文字被错误地导入(来自我们无法控制的)。例如拆分字符串当没有分隔符加入的词
configuredincorrectly
- 到2个字configured
&incorrectly
RegardsJohn Doe
- 成字Regards
和命名实体John Doe
To: [email protected]:[email protected]:[email protected]
- 成3元组(To,[email protected])
,(CC,[email protected])
,(BCC,[email protected])
problem.Possible
- 成2字problem
&possible
我承认我们正在努力解决这里的多个问题。人们很容易写不可扩展的代码每次我们试图解决特定肮脏的文本方案时间如
- 正则表达式,
- 与string.replace(关键字,keywordwithSpace)
任何人都可以请我指向一个(部分)解决方案的问题1 & 2?
使用自然语言理解的解决方案将是最理想的。 我们的词汇量有1000字左右,如[沟通,数据库,硬件,网络,问题,纠正,解决方案等]。有没有一种方法可以“训练”一个模型,以识别像hardwarefailure
这样的词真的意味着2个单独的词hardware
& failure
。
非常感谢提前!
你不能在这里使用正则表达式.. – 2015-03-13 09:39:41