2013-12-11 61 views
0

我需要解析Java中的sgml文件。以下是sgml文件中的内容,我需要FILING-DATA,CIK和ASSIGNED-SIC。在这方面请帮助我。解析sgml文件

<ACCEPTANCE-DATETIME>20130226172602 
<ACCESSION-NUMBER>0001193125-13-077271 
<TYPE>10-K 
<PUBLIC-DOCUMENT-COUNT>15 
<PERIOD>20121231 
<FILING-DATE>20130226 
<DATE-OF-FILING-DATE-CHANGE>20130226 
<FILER> 
<COMPANY-DATA> 
<CONFORMED-NAME>COGNIZANT TECHNOLOGY SOLUTIONS CORP 
<CIK>0001058290 
<ASSIGNED-SIC>7371 
<IRS-NUMBER>133728359 
<FISCAL-YEAR-END>1231 
</COMPANY-DATA> 
<FILING-VALUES> 
<FORM-TYPE>10-K 
<ACT>34 
<FILE-NUMBER>000-24429 
<FILM-NUMBER>13643872 
</FILING-VALUES> 
<BUSINESS-ADDRESS> 
<STREET1>500 FRANK W. BURR BLVD. 
<CITY>TEANECK 
<STATE>NJ 
<ZIP>07666 
<PHONE>2018010233 
</BUSINESS-ADDRESS> 
<MAIL-ADDRESS> 
<STREET1>500 FRANK W. BURR BLVD. 
<CITY>TEANECK 
<STATE>NJ 
<ZIP>07666 
</MAIL-ADDRESS> 
</FILER> 
</SEC-HEADER> 
+0

询问代码的问题必须证明对所解决问题的最小理解。包括尝试解决方案,为什么他们没有工作,以及预期的结果。另见:[堆栈溢出问题清单](http://meta.stackexchange.com/questions/156810/stack-overflow-question-checklist) – reto

+0

你正在处理文本分类? – Ashish

回答

0

虽然这是一个非常古老的职位和OP可能会得到解决,但没有有用的参考看看。我并不是声称我提供的答案是完美或最佳的解决方案,但它起到了这个作用,我也能够成功地从非常大的SGML文件中获取数据。所以我希望它可以帮助需要解析SGML文件的人。 请参考我以前的回答here 如果需要澄清,请通知我。