我已经使用tika为某些pdf文件提取文本并将文本存储在文本文件中。 现在我想解析这些文件使用opennlp块解析器,但我无法解析文件行,因为它包含一些特殊字符(一些方形类型的符号)之间没有空间之间的空间,我的文本文件中的示例行(无法显示这些方型符号,变音符号)删除文件行中除白色空格以外的所有特殊字符
51.2.3 Troubleshooting DHCP Configuration ?
62 Module 3: Point-to-Point Protocol (PPP) ?
62.1 Configuring HDLC Encapsulation ?
所以我想以线条为
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation
请建议我如何做到这一点?
嗨,我的线都没有在特定的格式,我不能写一个正则表达式,还有没有其他的解决方案 – user2609542
您仍然可以使用正则表达式,如果没有特定的格式,但特定的字符。要删除所有不可打印的字符,请使用'replaceAll('[^ \\ p {Print}]',“”)'。要替换特定字符,请使用上面的替换方法列出字符。你甚至可以用'replaceAll('[\\ W]',“”)'删除不在A-Za-z0-9中的所有东西。 –