PyPDF2坚持删除所有空格

我已经阅读了一些其他的计算器答案，并且还没有找到一个令人满意的答案，但它之前已被问过。当我尝试使用PyPDF2来读取pdf文档时，它将句子中的所有单词合并为一个连续的字符串。有没有人想出如何避免这种情况。下面是代码PyPDF2坚持删除所有空格

import PyPDF2 
import pandas as pd 

import struct as struct 

from nltk import word_tokenize 

pdfFileObj = open("notes.pdf", 'rb') 

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

## reading pages fine 
print(type(pdfReader.numPages)) 

## read in the pages 
pageObj = pdfReader.getPage(0) 

print(pageObj.extractText())

以下

被输出

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability 
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics. 
3)Datasummarization(graphicalandnumerical) 

4)Probabilityandrandomvariables

来源

2016-04-28 Steve

从来没有想出如何把空格去掉的样本，这是一个非常笨拙的程序。我发现使用pdfMiner的答案是最有帮助的。这很容易理解，并有更好的文档。以下是与我自己有同样问题的任何人的链接。

http://survivalengineer.blogspot.ie/2014/04/parsing-pdfs-in-python.html

来源

2016-05-06 14:46:11 Steve

PyPDF2坚持删除所有空格

回答

相关问题