有没有什么办法从bash中提取pdf的内容? (我有一个很大的学术论文文件夹,里面有很多标签,比如“1010.3423.pdf”,我想写一个bash脚本来更合理的命名它,比如说用google搜索前几行。)有没有什么办法从bash中提取pdf的内容?
5
A
回答
3
有pdftotext,它可以帮助您从pdf文件中获得标题和作者。然后你可以使用它来谷歌,或自己生成一个文件名。
3
尝试pdftotext来提取文本? http://en.wikipedia.org/wiki/Pdftotext
1
pdf2xml会为您提供更详细的信息,去年我一直在寻找这样的实用程序,其中,我认为pdf2xml是最好的。
相关问题
- 1. 从PDF中提取所有内容
- 2. 有没有什么办法解析网站内容的DOM树?
- 3. 有没有办法从iframe的内容获取父网址?
- 4. 有没有什么办法从tinymce中提取图像的src属性?
- 5. 有没有什么办法可以在windows phone中创建pdf
- 6. 有没有什么办法从本地内容的actionscript执行js函数?
- 7. 有没有办法从solr中提取所有的令牌?
- 8. 有没有什么办法用C#读取PDF中表格的特定列
- 9. 有没有什么办法可以用php获取html内容/值?
- 10. 有没有什么办法从tendermint的blockchain获取数据API
- 11. 有什么办法可以从浏览器内部保存PDF?
- 12. 有没有办法从Web UI中提取bitbucket中的更改?
- 13. 有没有办法从NetBeans中的单个类中提取JavaDoc?
- 14. 有没有什么办法可以从doc文件获得内容php
- 15. 有没有办法在控制器中获取PartialView HTML内容?
- 16. 有没有办法将内联CSS提取到CSS文件中
- 17. 有没有什么办法从C++库获取ICLRMetaHost
- 18. 有什么办法从IEnumerable中提取X元素?
- 19. 有什么办法从SQLite中提取查询吗?
- 20. django:有没有办法直接从内存中提供文件
- 21. Ant macrodef:有没有办法获取元素参数的内容?
- 22. 有没有什么办法可以使用PDO获取上次提取的ID
- 23. 有没有办法从html内容中提取有效的脚本并使用jQuery执行它?
- 24. 有没有办法从视图中提取画布或位图?
- 25. 有没有办法从NSS中提取密钥
- 26. 有没有办法从Firefox cookies文件中提取cookie?
- 27. 有没有办法从照片中提取QR码或条码
- 28. 有没有办法从WebException中提取消息?
- 29. 有没有办法从Crystal Reports中提取查询?
- 30. 有没有办法让Oracle Data Integrator从MongoDB中提取数据
[如何从PDF中提取格式化文本内容]的可能重复(http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –