我尝试通过Hibernate Search @TikaBridge索引pdf文件。根据文档与TikaBridge注释字段应该是任何如下因素类型: String - where the string value is interpreted as a file path
URI - where the URI is interpreted as a resource URI
byte[]
ja
我想从使用apache tika的大型pdf(不扫描/栅格化pdf)文件中提取文本。 但是,当我比较原始(从pdf)和提取的文本中提取文本后,我发现很多文本内容都丢失了。我曾尝试使用setMaxStringLength(-1)和BodyContentHandler(-1)来最大化输出。但仍然无法从pdf文件中提取全文内容。 下面是我试过的两个样本。 样品:1 public class Extrac