2016-12-21 91 views
0

我是JAVA SAX的初学者。我有一个大的XML文件,我想从中提取一些信息。下面是XML文件,我想提取和代码:如何从大型XML中获取特定元素的值

... 
    <Synset baseConcept="3" id="mizaAj_n2AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="hyponym" targets="TaboE_n2AR"/> 
      <SynsetRelation relType="hyponym" targets="TaboE_n2AR"/> 
      <SynsetRelation relType="hypernym" targets="ragobap_n4AR"/> 
      <SynsetRelation relType="hypernym" targets="ragobap_n4AR"/> 
      <SynsetRelation relType="hypernym" targets="Tiybap_Aln~afos_n1AR"/> 
      <SynsetRelation relType="hypernym" targets="Tiybap_Aln~afos_n1AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04623612-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
     <Synset baseConcept="3" id="ragobap_n4AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="antonym" targets="mizaAj_n2AR"/> 
      <SynsetRelation relType="antonym" targets="mizaAj_n2AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04624826-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
     <Synset baseConcept="3" id="tasal~uT_n1AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="has_instance" targets="simap_n1AR"/> 
      <SynsetRelation relType="is_instance" targets="simap_n1AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04625882-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
... 

我想:从XML文件

提取

hyponym: 2 
hypernym: 4 
antonym: 2 
has_instance: 1 
is_instance:1 

代码(主类和我处理器):

import java.io.IOException; 
    import org.xml.sax.SAXException; 
    import org.xml.sax.XMLReader; 
    import org.xml.sax.helpers.XMLReaderFactory; 

    public class Main { 

     public static void main(String[] args) throws SAXException, IOException{ 

      XMLReader p = XMLReaderFactory.createXMLReader(); 
      p.setContentHandler(new handler()); 
      p.parse("test1.xml"); 
} 
    ---------------------------------------- 
import org.xml.sax.helpers.DefaultHandler; 

    public class handler extends DefaultHandler { 

     @Override 
     public void startElement(String SpacenameURI, String localName, 
       String qName, Attributes attrs) { 

      System.out.println("qname = " + qName); 
      String node = qName; 

      if (attrs != null) { 
       for (int i = 0; i < attrs.getLength(); i++) { 
        //nous récupérons le nom de l'attribut 
        String aname = attrs.getLocalName(i); 
        //Et nous affichons sa valeur 
        System.out.println("Attribut " + aname + " valeur : " + attrs.getValue(i)); 
       } 
      } 
     } 
    } 
+0

什么是你的问题? – geoffreydv

+0

我确实提到了我想要的。我想从XML文件中获取一些信息。我的代码没有给我正确的信息。 – bttX

+0

因此,如果我理解正确,您不需要这些值,但是您想要计算文件中某些特定元素的出现次数。你想要每个Synset元素的计数还是一般的整个文件? – geoffreydv

回答

0
public Map<String, Integer> countElements(File xmlFile) { 

    Map<String, Integer> counts = new HashMap<>(); 

    try { 
     XMLInputFactory inputFactory = XMLInputFactory.newInstance(); 
     FileInputStream fileInputStream = new FileInputStream(xmlFile); 
     XMLStreamReader reader = inputFactory.createXMLStreamReader(fileInputStream); 

     while(reader.hasNext()) { 
      reader.next(); 
      if(reader.isStartElement() && reader.getLocalName().equals("SynsetRelation")) { 
       String relTypeValue = reader.getAttributeValue("", "relType"); 

       if(!counts.containsKey(relTypeValue)) { 
        counts.put(relTypeValue, 0); 
       } 

       counts.put(relTypeValue, counts.get(relTypeValue) + 1); 
      } 
     } 

     fileInputStream.close(); 
    } catch (XMLStreamException | IOException e) { 
     e.printStackTrace(); 
    } 

    return counts; 
} 

此代码使用Stream阅读器,这意味着它将只在内存中一次加载一个元素。即使对于大文件,这也会使其效率更高。

地图用于跟踪计数。每当我遇到一个“SynsetRelation”元素时,我首先检查它是否已经被计数,然后增加计数器。

结果是包含每个检测值的计数的映射。

你会在你的主类使用这样的:

public class Main { 
    public static void main(String[] args) { 
     Map<String, Integer> results = countElements(new File("your file location here.xml")); 
    } 
} 
+0

谢谢你,但你可以评论的代码,所以我可以理解它,并根据需要修改它。再次坦克;) – bttX

+0

不客气。我在代码下面提供了一些额外的文字来澄清它。如果您有困惑的特定部分,请提问! – geoffreydv

+0

我在答案的底部添加了一个使用示例,您应该将countElements方法作为私有静态方法添加到主类中,或者创建另一个具有该方法的新类,然后调用该方法。 (如新的XmlCounter()。countElements();) – geoffreydv