我很惊喜地发现使用iTextSharp从pdf文件中提取文本是多么容易。通过以下this article,我能得到一个PDF文件转换用这个简单的代码到文本:什么算法可以将文本分解为其组成单词?
string pdfFilename = dlg.FileName;
// Show just the file name, without the path
string pdfFileNameOnly = System.IO.Path.GetFileName(pdfFilename);
lblFunnyMammalsFile.Content = pdfFileNameOnly;
string textFilename = String.Format(@"C:\Scrooge\McDuckbilledPlatypus\{0}.txt", pdfFileNameOnly);
PDFParser pdfParser = new PDFParser();
if (!pdfParser.ExtractText(pdfFilename, textFilename))
{
MessageBox.Show("there was a boo-boo");
}
的问题是,在文本文件中生成包含这样的文本(也就是没有空格):
IwaspleasantlysurprisedtofindhoweasyitistouseiTextSharptoextractthetextfromatextfile.
是否有一个算法“在那里”,将采取这样的文本,并作出一个最好的猜测,这个词断裂(AKA“空间”)应该去哪里?
我会说最好解决为什么你的文本提取不包含空格,然后试图破解你为自己创建的新问题的解决方案。 – 2012-07-08 05:04:57
[Watch Peter Norvig在数据的不合理有效性中使用词分词](http://youtu.be/yvDCzhbjYWs?t=18m10s),知道你的答案 – Alexander 2012-07-08 09:06:44
@Gavin:因为我使用这个第三方代码来做到最难的部分,我对这种事情发生的原因没有太多的控制,也不会把它称为我为自己创造的问题。 – 2012-07-08 18:29:42