2014-02-24 22 views
0

基本上我想在这里做的是在一个文本文件中逐行阅读,并像这样格式化它们: 姓氏,标题,名字,中间,然后出生/死亡日期像MM/DD/YYYY格式化/分隔java中的字符串的名称和日期?

我在阅读的日期如下:

Month, day, year 
Mon. day, year 
Mon day, year 
MMDDYY 
M/D/year 
M-D-year 

和名称如下:

Last, Title First Middle (comma after name needed) 

OR

Title First Middle Last 

我一直在这个工作很长一段时间,只是无法弄清楚。下面是我非常杂乱的代码,经历了很多改变,试图弄清楚这一点,谢谢你的时间任何人想帮助我(我是学生),这里也是一个读取名字的例子在:

Roger Veium MAY  12, 1908  JUNE 2, 1984 
McDermott, James D.  Jan. 4, 1914  Jul 1, 1970 
Amy Chamberlain Sep.  28, 1975 09-06-95 
Gross, Adam M. 01-03-77 
Joseph Lisota April 9, 1964 
Joseph W. Eisel Sep 3, 1990 

代码:

public String[] readLines(String filename) throws IOException { 
    FileReader fileReader = new FileReader(filename); 
    BufferedReader bufferedReader = new BufferedReader(fileReader); 
    List<String> lines = new ArrayList<String>(); 
    List<String> names = new ArrayList<String>(); 
    String line = null; 
    String name = ""; 
    int i; 
    int ind; 
    int indTemp; 
    int indTemp2; 
    boolean flag = false; 
    String[] monthsLong = {"JANUARY", "FEBRUARY", "MARCH", "APRIL", "MAY", "JUNE", "JULY", "AUGUST", "SEPTEMBER", "OCTOBER", "NOVEMBER", "DECEMBER"}; 
    String[] monthsLongR = {" 01", "02", " 03", "04", "05", "06", "07", "08", " 09", "10", "11", "12"}; 
    String[] monthsLow = {"JAN\\.", "FEB\\.", "MAR\\.","APR\\.", "MAY", "JUN\\.", "JUL\\.", "AUG\\.", "SEP\\.", "OCT\\.", "NOV\\.", "DEC\\."}; 
    String[] monthsCaps = {" JAN", "FEB", " MAR", "APR", "MAY", "JUN", "JUL", "AUG", " SEP", "OCT", "NOV", "DEC"}; 

    while ((line = bufferedReader.readLine()) != null) { 
     line = line.replaceAll("null", ""); 
     line = line.replaceAll("-","/"); 
     line = line.toUpperCase() ; 

     for(i = 0; i<12; i++) 
     { 
      line = line.replaceAll(monthsLong[i], monthsLongR[i]); 
     } 

     for(i = 0; i<12; i++) 
     { 
      line = line.replaceAll(monthsLow[i], monthsLongR[i]); 
     } 

     for(i = 0; i<12; i++) 
     { 
      line = line.replaceAll(monthsCaps[i], monthsLongR[i]); 
     } 

     line = line.replaceAll("\\s+", " "); 
     if (Character.toString(line.charAt(0)).equals(" ")) 
      line = line.replaceFirst(" ", ""); 

/*  name = line; 

     ind = name.indexOf("."); 
     indTemp = name.indexOf("0"); 
     indTemp2 = name.indexOf("1"); 

     if (ind > -1) { 
      System.out.println(" period"); 
      ind = ind + 1; 
      flag = true; 
     } 
     if(flag == false) { 
      if(indTemp2 > indTemp){ 
       ind = indTemp2 -1; 
       System.out.println(" 1"); 
      } 
      if (indTemp > indTemp2){ 
       ind = indTemp - 1; 
       System.out.println(" 2"); 
      } 
     } 
     flag = false; 
    */ 
     // name = name.substring(0,ind); 

     lines.add(line); 
    } 
    bufferedReader.close(); 
    return lines.toArray(new String[lines.size()]); 
} 
+0

这是一个非常混乱的输入文件。每张唱片后是否有换行符,还是仅仅是一个平面的转储? – warwickf

+0

换行符,对不起,有人为我修复它,我是全新的网站。 – javauserrrr

+0

有什么方法可以重新格式化输入文件吗? – warwickf

回答

0

好了,那么唯一的另一种方式是通过走行线,并为每个不同的线格式的规则列表。有一些重复,但有很多行与其他行非常不同。然后,您会像循环一样查找规则指针,以便您可以将该规则应用于该行。

据我所见,这是做到这一点的最佳方式。我有这些文件的经验,如果处理不当,它们可能是一场噩梦。在遵守规则的同时,您实际上可能会找到一种可以使用的模式,这种情况经常发生。

我希望这会有所帮助。