我正在检查PDF文档是否可搜索,如果我可以从PDF中的每个页面获取任何文本。可搜索的PDF文件(图像+文本PDF)验证
但是,当我试图从包含超过500〜2000页的PDF中提取文本时,检查每个页面似乎需要永久。
PDF可能包含一页文本而不包含其他文本? 我想在这里做的是,如果一个第一页PDF的包含文本,那么它是不是还有一个可搜索的PDF ..
我正在检查PDF文档是否可搜索,如果我可以从PDF中的每个页面获取任何文本。可搜索的PDF文件(图像+文本PDF)验证
但是,当我试图从包含超过500〜2000页的PDF中提取文本时,检查每个页面似乎需要永久。
PDF可能包含一页文本而不包含其他文本? 我想在这里做的是,如果一个第一页PDF的包含文本,那么它是不是还有一个可搜索的PDF ..
试试这个版本的Searcharoo,它可以让你搜索Word和PDF文档。
是的,PDF很有可能在一个页面上包含文本,但其余的不是。你可能会有一个500页的PDF,其中包含前499页的图像,但在最后一页包含文本。
除非您想自己打开PDF文件并对其进行扫描以进行文本/文本操作,否则您需要使用现有的第三方PDF库,以便从PDF中提取文本。
此外,请参阅Ferruccio对相关question的回复,该文件将使用IFilter接口,专门用于搜索索引和文本提取。
@Chris:“Searchable PDF”是可以在* PDF而不是文件系统中搜索*的文本。 – Sung 2009-05-06 14:15:49