2010-03-17 54 views
2

我需要一些帮助来解决这个问题。从不同的非结构化文本文件检索信息 - 文本挖掘?

我们有一个给定指定域的大量文档。这些文件来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一张桌子,里面有一些指定的字段,其中一些数字必须从文档摘录中填写。

例如:

X公司具有 $ 20mio业务量在2010年$ 1,000,000,将今年 Y公司交流。

结果应该是这样的

|| Company | Year | Volume 
|| X  | 2010 | 200,000 
|| Y  | 2010 | 1000,000 

你能指出我请一些链接或主题,在哪里可以找到进一步的信息如何解决这样的问题。

我知道这里没有开箱即用的解决方案,但我应该在哪里开始寻找。

在此先感谢。

回答

2

好的。有整个计算机科学实验室致力于这种东西! 也许通过看一个叫RapidMiner

而且,这里的工具开始有一对夫妇的研究论文标题我有PDF格式的(我没有为链接了黯然):

1.自动财务的理解声明 神经网络与语义语法

詹姆斯Markovitch 敦& Bradstreet公司,搜索技术1995年 月 电子邮件:[email protected] 版权所有1995年詹姆斯Markovitch

2.集成方法在文档图像

玛格丽特·贝拉尔迪,米歇尔拉皮和多纳托Malerba Dipartimento迪Informatica的自动语义结构提取 - 通过UNIVERSITA阿布鲁Studi住宅二巴里 Orabona 4 - 70126 Bari {berardi,lapi,malerba} @ di.uniba.it

我认为第一个会对你后面的事情有很大的兴趣。不太清楚它会通过多少价值:)

+0

嗨 感谢您的信息。如果你有关于这个话题的更多信息,请发布他们:-) – nWorx 2010-03-26 16:01:31