2017-06-27 16 views
-1

我有一个独特的问题,我不知道任何算法可以帮助我。也许有人在这里。用文本数据确定规范类

我有一个从许多不同来源(团队)编译的数据集。一个领域特别被称为“类型”。下面是一些类型示例值:

APLE,苹果,APPLS,ornge,水果,橘,橙Z,梨, 菜花,colifower,brocli,西兰花,韭菜,蔬菜,蔬菜。

我希望能够做的是将它们组合成例如水果,蔬菜等

换句话说,我有一个父级变量(水果或蔬菜在这个例子中)各种排列的多个拼写,我需要能够尽我所能地将它们分组。

数据的唯一其他潜在相关特征是进入它的团队,假设每个团队输入数据的方式保持一致。

所以,我有几百万记录的多个拼写和短拼写(例如苹果,苹果),我想以某种方式将它们组合在一起。在这个例子中,水果和蔬菜。

聚类会很具挑战性,因为每个条目通常是1或2个单词,这使计算术语之间的距离变得非常棘手。

创建一个由人类创建的大量查找表(不太可能具有数百万行),有什么办法可以解决这个问题吗?

+5

这还不是一个统计任务。你必须为每个单词词汇化(恢复词汇表)。但是,如果许多单词是一些不规则的,杂乱的缩写,那么即使是词汇化/干扰软件也无济于事。我相信实际上最简单的方法是查看数百万字的列表,并首先将其转换为完整格式。一些可以预先自动执行的重新编码,通过预测最典型的拼写错误,例如ornge - > orange。像MS Word和一些互联网网站这样的程序有助于在检查拼写时快速修复拼写错误。 – ttnphns

+0

Hi @ttnphns,假设我这样做了,并且完全拼写了数据(希望有一个魔术库在那里),那么我该怎么做? “引理”对我来说是一个新词。我的目标是将这些词汇推理出来吗?你知道有任何r软件包吗?感谢迄今的信息 –

+0

你有什么信息可以让你把它们聚集在一起?每个条目是否都有关于对象的绿色或飘渺的额外信息? “韭菜”或“苹果”对计算机来说仅仅是一个没有意义的字符串 - 没有额外的信息,无论是从数据集还是外部来源,计算机都不能使用它来将它们分类为“水果”或“蔬菜” - 即使人类无法做到这一点,我们也会使用外部信息(“韭葱”和“苹果”所代表的字符串以及代表对象的属性,如绿色或味道)。 – Chill2Macht

回答

1

您需要首先解决拼写问题,除非您有Google缩放数据,可以让您学习使用Google缩放统计信息修复拼写。

然后你仍然会遇到“Apple”可能是水果或电脑的问题。苹果和“奶奶史密斯”将完全不同。你最好猜测在这个第二阶段是像word2vec 海量数据训练。然后你可以得到高维度的单词向量,并且最终可以尝试解决聚类挑战,如果你能得到满意的结果,那么你就可以得到这么好的结果。祝你好运。