我的项目正在从平面Excel文件导入一个可观的集合+ 500K行数据,这些文件是由一组人员手动创建的。现在的问题是,这一切都需要规范化,以便客户搜索。例如,公司字段将包含多个公司拼写,并包含分支,如“IBM”,然后是“IBM Inc.”和“IBM日本”等。此外,我有一些字母数字的产品名称,如“A46-Rhizonme Pentahol”,其中仅SOUNDEX无法处理。如何在MySQL中标记字符串?
我可以通过让所有的数据输入都是通过网页形式来解决这个问题,其中包括一个AJAX自动建议。然而在那之前,我仍然需要处理大量现有数据的收集。这使我想起我相信是一个很好的过程,根据我所读到这里:
http://msdn.microsoft.com/en-us/magazine/cc163731.aspx
步骤来创建自定义模糊查找和模糊逻辑分组
- 名单项
- 记号化字符串插入关键字
- 计算关键字TF-IDF(总频率 - 逆文档frequecy)
- 计算的Levenshtein DISTA可用字母串
- 关键字之间NCE计算探测法
- 确定关键字的上下文
- 地方的关键字,根据上下文,到单独的数据库表,如“公司”,“产品”,“配料”
我一直在谷歌搜索,搜索StackOverflow,阅读MySQL.com讨论等有关这个问题,试图找到一个预先构建的解决方案。有任何想法吗?
很好的资源,谢谢!我必须看看它的整合程度,因为这是一个高度手动的解决方案。我很好奇看看过程是否可以自动化。 – 2011-12-16 16:16:19