2017-05-14 33 views
1

我想解析一个文件到一个地图。我试图解析的文本(由sys在sys中显示)是NumberFormatException抛出一个正确的字符串?

10 przysuń hotel o 90 metrów。每个单词分隔\t

该文件是UTF-8编码的。

这里是我的方法:

private void readFile() { 
    try { 
     if (transcriptFile == null) 
      transcriptFile = new File(transcriptPath); 

     lines = Files.readAllLines(transcriptFile.toPath()); 
     for (String s : lines) { 
      if (!s.isEmpty()) { 
       List<String> parts = Arrays.asList(s.split("\t")); 
       System.out.println(parts); 

       int id = Integer.parseInt(parts.get(0).trim()); 
       parts.remove(0); 
       String text = String.join(" ",parts); 
       map.put(id,text); 
      } 
     } 
    } catch (IOException e) { 
     e.printStackTrace(); 
    } 
} 

而且我得到这个异常:

[10, przysuń, hotel, o, 90, metrów ] 
java.lang.NumberFormatException: For input string: "10" 
at 
java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) 
at java.lang.Integer.parseInt(Integer.java:580) 
at Controller.readFile(Controller.java:143) 
at Controller.access$000(Controller.java:29) 
at Controller$SpeechTask.call(Controller.java:202) 
at Controller$SpeechTask.call(Controller.java:154) 
at javafx.concurrent.Task$TaskCallable.call(Task.java:1423) 
at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
at java.lang.Thread.run(Thread.java:748) 

我看不出为什么这不会是可解析。

+0

也许在字符串中有一些不可见的特殊字符?如果你首先去掉所有的非数字,请尝试'int id = Integer.parseInt(parts.get(0).replaceAll(“\\ D +”,“”));' – janos

+1

可能是一个字符编码问题。 – KevinO

+0

可能重复[什么是NumberFormatException,我该如何解决它?](http://stackoverflow.com/questions/39849984/what-is-a-numberformatexception-and-how-can-i-fix-it) – xenteros

回答

0

你的输入文件可能包含一个不可见的字符Byte Order Mark (BOM),它可能位于字符10的前面。从this post尝试溶液或Apache的BOMInputStream

非编程,你可以使用UTF-8记事本++的编码无BOM 功能并保存输入文件。

0

u能替换下面的行

List<String> parts = Arrays.asList(s.split("\t")); 

有了这个和检查一次

List<String> parts = Arrays.asList(s.replaceAll("\\s+", ",").split(",")); 

而且讲的是同样的异常再来。

+0

是的,没有变化。 – Asalas77

0

似乎这是由于字符编码问题,当定义编码为UTF-8时,记事本在文件前面保存了一些额外的字符。

当我尝试这个,parts.get(0).trim()返回?10而不是10因此有NumberFormatException。假设,如果你已经定义了10作为第二个字,然后parts.get(1).trim()将返回10并不会有任何NumberFormatException

以下问题解释这个问题Reading strange unicode character in Java?

而且Arrays.asList返回不能被修改的列表,因此即使Integer.parseInt成功,parts.remove(0)中也可能有UnsupportedOperationException

+0

关于你的最后一点,我把它改成'parts = new ArrayList <>(Arrays.asList(s.split(“\ t”));'所以删除元素不应该是一个问题。 – Asalas77

相关问题