2011-07-07 71 views
5

目前,我正在设计一些糖生物学领域的格式转换工具。格式转换涉及从文本文件转换为该字段中标准的XML文件。大多数情况下,我们获得的数据包含以下纯文本文件中感兴趣的信息。实际的文件包含在一行中。阅读和分割这些文本以获取信息是微不足道的(可能不直观),但XML是问题所在。从纯文本中提取信息并使用DOM写入XML

[][b-D-GlcpNAc] 
    {[(4+1)][b-D-GlcpNAc] 
     {[(4+1)][b-D-Manp] 
      {[(3+1)][a-D-Manp] 
       {[(2+1)][a-D-Manp]{} 
      } 
     [(6+1)][a-D-Manp] 
      {[(3+1)][a-D-Manp]{} 
      [(6+1)][a-D-Manp]{} 
     } 
    } 
} 

如何来解释这一点:形式

  1. 一切的W-W-W +是链接到另一个糖。链接显示为卷曲{。
  2. 4 + 1,3 + 1等等表示一个糖上的哪个碳键与另一个糖上的碳键相连。所以前一个的第四个碳与后一个的第一个碳相连。
  3. {}这表明没有额外的糖链接到该糖
  4. } curlies刚刚接近该层。

您可以阅读XML并找出链接的工作方式。但是如果你们想要更详细的解释,那就问问。

XML的外观如下所示。

<?xml version="1.0" encoding="UTF-8"?> 
<GlydeII> 
    <molecule subtype="glycan" id="From_GlycoCT_Translation"> 
      <residue subtype="base_type" partid="1" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=b-dglc-HEX-1:5" /> 
      <residue subtype="substituent" partid="2" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=n-acetyl" /> 
      <residue subtype="base_type" partid="3" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=b-dglc-HEX-1:5" /> 
      <residue subtype="substituent" partid="4" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=n-acetyl" /> 
      <residue subtype="base_type" partid="5" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=b-dman-HEX-1:5" /> 
      <residue subtype="base_type" partid="6" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" /> 
      <residue subtype="base_type" partid="7" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" /> 
      <residue subtype="base_type" partid="8" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" /> 
      <residue subtype="base_type" partid="9" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" /> 
      <residue subtype="base_type" partid="10" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" /> 
      <residue_link from="2" to="1"> 
       <atom_link from="N1H" to="C2" to_replace="O2" bond_order="1" /> 
      </residue_link> 
      <residue_link from="3" to="1"> 
       <atom_link from="C1" to="O4" from_replace="O1" bond_order="1" /> 
      </residue_link> 
      <residue_link from="4" to="3"> 
       <atom_link from="N1H" to="C2" to_replace="O2" bond_order="1" /> 
      </residue_link> 
      <residue_link from="5" to="3"> 
       <atom_link from="C1" to="O4" from_replace="O1" bond_order="1" /> 
      </residue_link> 
      <residue_link from="6" to="5"> 
       <atom_link from="C1" to="O3" from_replace="O1" bond_order="1" /> 
      </residue_link> 
      <residue_link from="7" to="6"> 
       <atom_link from="C1" to="O2" from_replace="O1" bond_order="1" /> 
      </residue_link> 
      <residue_link from="8" to="5"> 
       <atom_link from="C1" to="O6" from_replace="O1" bond_order="1" /> 
      </residue_link> 
      <residue_link from="9" to="8"> 
       <atom_link from="C1" to="O3" from_replace="O1" bond_order="1" /> 
      </residue_link> 
      <residue_link from="10" to="8"> 
       <atom_link from="C1" to="O6" from_replace="O1" bond_order="1" /> 
      </residue_link> 
    </molecule> 
</GlydeII> 

到目前为止,我已经平凡抽到所有的残留物领域,并将其写入XML。但是即使为residual_link字段编写伪代码,我也遇到了麻烦。即使我可以得到关于如何在xml中添加链接信息的帮助和想法,我将不胜感激。

+0

我想你错过了一个大括号。你可以使用代码格式,新行和缩进来更好地对源文本进行视觉解释吗? – Udi

+0

[]代表什么? – Udi

+0

当然,我为眼睛疼痛道歉。 – arkestra

回答

1

好吧!很酷的问题,它以一种很好的方式伤害了我的大脑。

首先...我的理智我标签的原始数据转换成一种方式,是有道理的:

[][b-D-GlcpNAc] { 
    [(4+1)][b-D-GlcpNAc] { 
     [(4+1)][b-D-Manp] { 
      [(3+1)][a-D-Manp] { 
       [(2+1)][a-D-Manp] { } 
      } 
      [(6+1)][a-D-Manp] { 
       [(3+1)][a-D-Manp] { } 
       [(6+1)][a-D-Manp] { } 
      } 
     } 
    } 

我认为关键,这是搞清楚对是什么,你希望以编程方式弄清楚你在什么级别。

伪代码:

hierarchy = 0 
nextChar = getNextChar() 
while (Parsing): 
    if (nextChar = "{"): 
     hierarchy += 1 
    elif (nextChar = "}"): 
     hierarchy -= 1 
    if (nextChar = "["): 
     storeSugar(hierarchy) 

你想也想跟踪它的糖是以前的“母体”糖。

+0

hm ...所以我有这样的设置。让我更多地考虑你的建议。我应该能够找出一种方法来实现这一点。谢谢。 – arkestra