0
有没有可以从指定的DOC或PDF文件中提取所需文本的C#库(3.5兼容)?文本挖掘库或算法来检索所需的文本?
目前我搜索了约NLTP (Natural Language Text Processing),但它似乎有点困难。有没有更简单的解决方案?
有没有可以从指定的DOC或PDF文件中提取所需文本的C#库(3.5兼容)?文本挖掘库或算法来检索所需的文本?
目前我搜索了约NLTP (Natural Language Text Processing),但它似乎有点困难。有没有更简单的解决方案?
你可以学习下面这个链接,也可以经过Lucene.net库
http://www.codeproject.com/Articles/9461/DotLucene-Full-Text-Search-for-Your-Intranet-or-We
Thanx!这真好 –
PDF文件是不同的;这可能需要OCR库。即使那样,这些也不是100%准确的。 – Makoto