2015-02-05 31 views
0

我使用Apache Tika从URL中提取PDF内容,并将Tika发现的结果传递给Python脚本。我能够获得正确的内容,但我也希望能够获取我解析的网址。例如,运行:如何获取传递给Python脚本的数据的源名称?

java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py 

传递

[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ] 

my_script.py。但是,我也希望能够访问管道文件的位置,例如, https://somewebsite.com/a_pdf_document.pdf

由于我管道的数据,sys.argv将无法​​正常工作。我错过了什么可以做到这一点?

+2

没有。您需要将其存储在环境中的某个位置,或者将其作为参数传递给python,与管道数据分开,或者使用分隔符或其他方式将其发送到管道数据中。 – 2015-02-05 21:56:10

+0

好的,谢谢你的回应 - 如果必须的话,我可以将它添加为arg。 – JennyDanger 2015-02-05 21:57:51

回答

3

否管道数据没有名称。

你有几个选择。

  1. 您可以将文件名作为参数传递给python脚本。
  2. 您可以将文件名存储在环境中。
  3. 您可以传递文件名作为管道数据的一部分(带有分隔符)。
相关问题