从不同的非结构化文本文件检索信息 - 文本挖掘？

我们有一个给定指定域的大量文档。这些文件来自不同的来源，因此它们的结构也可能非常不同。另一方面，我有一张桌子，里面有一些指定的字段，其中一些数字必须从文档摘录中填写。

例如：

X公司具有 $ 20mio业务量在2010年$ 1,000,000，将今年 Y公司交流。

结果应该是这样的

|| Company | Year | Volume 
|| X  | 2010 | 200,000 
|| Y  | 2010 | 1000,000

你能指出我请一些链接或主题，在哪里可以找到进一步的信息如何解决这样的问题。

我知道这里没有开箱即用的解决方案，但我应该在哪里开始寻找。

在此先感谢。

2010-03-17 nWorx

好的。有整个计算机科学实验室致力于这种东西！也许通过看一个叫RapidMiner

而且，这里的工具开始有一对夫妇的研究论文标题我有PDF格式的（我没有为链接了黯然）：

1.自动财务的理解声明神经网络与语义语法

2.集成方法在文档图像

玛格丽特·贝拉尔迪，米歇尔拉皮和多纳托Malerba Dipartimento迪Informatica的自动语义结构提取 - 通过UNIVERSITA阿布鲁Studi住宅二巴里 Orabona 4 - 70126 Bari {berardi，lapi，malerba} @ di.uniba.it

我认为第一个会对你后面的事情有很大的兴趣。不太清楚它会通过多少价值:)

2010-03-17 11:03:20

嗨感谢您的信息。如果你有关于这个话题的更多信息，请发布他们:-) – nWorx 2010-03-26 16:01:31

回答