0
我使用Apache Tika从URL中提取PDF内容,并将Tika发现的结果传递给Python脚本。我能够获得正确的内容,但我也希望能够获取我解析的网址。例如,运行:如何获取传递给Python脚本的数据的源名称?
java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py
传递
[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ]
到my_script.py
。但是,我也希望能够访问管道文件的位置,例如, https://somewebsite.com/a_pdf_document.pdf
。
由于我管道的数据,sys.argv
将无法正常工作。我错过了什么可以做到这一点?
没有。您需要将其存储在环境中的某个位置,或者将其作为参数传递给python,与管道数据分开,或者使用分隔符或其他方式将其发送到管道数据中。 – 2015-02-05 21:56:10
好的,谢谢你的回应 - 如果必须的话,我可以将它添加为arg。 – JennyDanger 2015-02-05 21:57:51