我所拥有的是一堆PDFs(少数100s)。他们没有合适的结构,也没有特定的领域。他们都有很多文字。如何索引PDF文件并搜索关键字?
我所试图做的事:
指数PDF和搜索对索引一些关键字。 我有兴趣查找该PDF文档中是否包含该特定关键字,如果是,则需要找到该关键字的行。 如果我在包含该术语的PDF文档中搜索“Google”,我希望看到'Google是一个很棒的搜索引擎',它是PDF中的一行。
如何,我决定做:
无论是使用SOLR或嗖但SOLR是好看的内置PDF支持。我更喜欢用Python编码,Sunburst是我喜欢的SOLR封装。 SOLR的示例/示例项目有一些基于价格比较的模式文件。现在我不确定是否可以使用SOLR来回答我的问题。
你们有什么建议?任何输入都非常感谢。
您是否建议通过每个PDF包含的每个单词或词组来编制索引?如果不是,您将如何生成关键字列表? – smci
我有一个关键字实际上的列表。我想索引PDF中的所有内容,然后使用我的关键字针对该索引运行搜索。 – ThinkCode