我需要一些帮助来解决这个问题。从不同的非结构化文本文件检索信息 - 文本挖掘?
我们有一个给定指定域的大量文档。这些文件来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一张桌子,里面有一些指定的字段,其中一些数字必须从文档摘录中填写。
例如:
X公司具有 $ 20mio业务量在2010年$ 1,000,000,将今年 Y公司交流。
结果应该是这样的
|| Company | Year | Volume
|| X | 2010 | 200,000
|| Y | 2010 | 1000,000
你能指出我请一些链接或主题,在哪里可以找到进一步的信息如何解决这样的问题。
我知道这里没有开箱即用的解决方案,但我应该在哪里开始寻找。
在此先感谢。
嗨 感谢您的信息。如果你有关于这个话题的更多信息,请发布他们:-) – nWorx 2010-03-26 16:01:31