2012-03-29 73 views
16

我有一个包含阿拉伯字符的xml文件。当我尝试解析文件时,它出现异常,MalformedByteSequenceException:2字节的UTF- 8序列。我使用POI DOM解析文档。MalformedByteSequenceException:2字节的UTF-8序列无效的字节2

日志是,

2012-03-19 11:30:00,433 [ERROR] (com.infomindz.remitglobe.bll.remittance.BlackListBean) - Error 

com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 2-byte UTF-8 sequence. 

    at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.invalidByte(Unknown Source) 

    at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.read(Unknown Source) 

    at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.load(Unknown Source) 

    at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.skipChar(Unknown Source) 

    at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDriver.next(Unknown Source) 

    at com.sun.org.apache.xerces.internal.impl.XMLDocumentScannerImpl.next(Unknown Source) 

    at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source) 

    at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source) 

    at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source) 

    at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(Unknown Source) 

    at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source) 

    at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source) 

    at javax.xml.parsers.DocumentBuilder.parse(Unknown Source) 

    at com.infomindz.remitglobe.bll.remittance.BlackListBean.updateGeneralBlackListDetail(Unknown Source) 

    at com.infomindz.remitglobe.bll.remittance.schedulers.BlackListUpdateScheduler.executeInternal(Unknown Source) 

    at org.springframework.scheduling.quartz.QuartzJobBean.execute(QuartzJobBean.java:86) 

    at org.quartz.core.JobRunShell.run(JobRunShell.java:216) 

    at org.quartz.simpl.SimpleThreadPool$WorkerThread.run(SimpleThreadPool.java:549) 

例外才会出现在Windows机器上,在Linux中Machine.How不会出现,我可以解决issue.Any建议应该是明显的。

回答

13

我已经通过使用UTF8格式创建XML文件来解决问题。

OutputStreamWriter bufferedWriter = new OutputStreamWriter(filePath + 
         System.getProperty("file.separator") + fileName), "UTF8"); 

使用上面的代码创建文件后,解决了编码问题。感谢每一个人,在这里付出努力。

+3

这是为我工作的解决方案,但我不得不做出变化不大:OutputStream的OS =新的FileOutputStream中(文件);和OutputStreamWriter bufferedWriter = new OutputStreamWriter(os,“UTF8”); – maxivis 2013-09-02 14:26:31

0

我认为你的解析器期望一个用UTF-8编码的字节并以不同的编码接收它。检查文件的编码。

一个可能的解决方案可能是将文件转换为UTF-8。

如果您有UNIX系统中,您可以使用此工具

iconv -f original_charset -t utf-8 your_file > new_file 
0

这是基于操作系统的启动文件的字符。您应该使用一些字节浏览器并从文档中删除它。 你可以尝试使用类似unix2dos的东西来转换控制字符。

3

我们从消息中可以看出,该文件没有用UTF-8正确编码。为了弄清楚为什么,你需要追踪文件的创建历史。它可能(或不可能)有助于研究二进制级别的文件内容,以查看实际编码是什么。例如,了解整个文件是否使用了错误的编码方式,或者它是否包含了错误编码中的几个杂散字符可能很有用。

7

你可以添加一个jvm参数 -Dfile.encoding = utf-8到你的jvm。

相关问题