回答
我认为你可以使用pyPdf Python库(http://pybrary.net/pyPdf/)。 的网页此代码显示号码其中包括所需的字:
from pyPdf import PdfFileReader
input = PdfFileReader(file("YourPDFFile.pdf", "rb"))
numberOfPages = input.getNumPages()
i = 1
while i < numberOfPages:
oPage = input.getPage(i)
text = oPage.extractText()
text.encode('utf8', 'ignore')
if text.find('What are you looking for') != -1:
print i
i += 1
相同,但与Python 3
from pyPdf import PdfFileReader
input = PdfFileReader(open("YourPDFFile.pdf", "rb"))
numberOfPages = input.getNumPages()
i = 1
while i < numberOfPages:
oPage = input.getPage(i)
text = oPage.extractText()
text.encode('utf8', 'ignore')
if text.find('What are you looking for') != -1:
print(i)
i += 1
我认为主要的问题是我在这个脚本中使用了Python 2.7,并且'print'的构造有所不同Python版本[http://diveintopython3.org/porting-code-to-python-3-with-2to3.html](http://diveintopython3.org/porting-code-to-python-3-with-2to3。 html) –
正如一个注释,它是一个更直接的做它的for循环,'为我在范围内(1,numberOfPages):'只是测试'如果'文字'在文字' – 2011-08-05 10:18:07
我没有使用PyPdf,但查看文档,它看起来不像你可以。我对PDF标准了解不多,但可能文档本身是按页面定义的。 – 2011-08-05 14:54:12
- 1. 从gdoc创建一个PDF
- 2. 从数据列创建唯一索引
- 3. 从单个DIV创建PDF
- 4. 创建一个排名索引
- 5. 创建一个特定的索引
- 6. 创建一个索引号字符串
- 7. 创建一个动态列表索引
- 8. 创建一个旅游搜索引擎
- 9. 创建一个索引的年龄
- 10. 创建一个列的索引Vs的上聚类列创建索引
- 11. 的iOS创建一个PDF
- 12. 创建一个PDF表格
- 13. 创建索引是MySQL中另一个索引的子集
- 14. 从多索引csv文件创建一个多重索引熊猫数据框
- 15. 创建索引
- 16. 从Python中的现有PDF创建一个新的PDF
- 17. 如何创建一个数组,其索引从1开始
- 18. NHibernate - 从hbm文件创建一个复杂的索引
- 19. 创建从另一个数组,并找到索引Matlab的
- 20. 从工作树创建一个GIT树而不触摸索引?
- 21. 创建一个从索引派生的mySQL字符串
- 22. 一个班轮:从索引列表创建词典作为键
- 23. 创建一个部分索引,并从字符串
- 24. 从字典中创建一个数据框,而不是索引
- 25. 从python创建PDF
- 26. 从UITextView创建PDF
- 27. 创建唯一索引一个/唯一/单个NULL
- 28. 如何下载pdf时创建smarty从pdf创建的pdf
- 29. 从另一个部分创建一个PDF文件
- 30. 创建索引Nest
工作你有什么到目前为止?如果使用Python,请查看'collections'模块。 – TyrantWave
哦,看。很多人都问过同样的问题:http://stackoverflow.com/search?q=python+index+pdf。您也可以使用页面顶部的“搜索”框并查看其他人提出的问题,这可能会对您有所帮助。 –
“哪一个不是我正在寻找的东西”。没有任何帮助。请仔细并全面地定义您的要求实际上是不同的。我们不知道你在做什么独特或不同。它看起来与我们完全相同。 –