2

前后算法我想用于蛋白质二级结构预测HMM(前进后退模型)。对二级结构预测

基本上,一个三态模型用于:美国= {H =α螺旋,B =β片层,C =线圈}

,并且每个状态具有的发射概率PMF 1 * 20(为20个氨基酸)。

在前向后向模型上使用序列的“训练集”后,期望最大化收敛为最佳转换矩阵(三个状态之间3乘3)和每个状态的发射概率pmf。

有谁知道被确定的转换矩阵和发射概率的“正确”值的序列的数据集(优选非常小)的。我想用该数据集在Excel应用向前向后算法,并建立了我的信心,以确定我是否能得到同样的结果。

然后移动到东西少比原始Excel中:O)

+0

你也可以问问biostars:http://www.biostars.org – Pierre 2013-05-02 07:20:04

+0

Pierre,谢谢你的建议。同时我也会这样做。 – 2013-05-02 07:24:12

回答

0

要做到这一点,最好的办法可能是从你决定发行制作自己的模拟数据。然后你运行程序,看是否参数估计对你的已知参数收敛。在你的情况下,这将涉及编写一个马尔可夫链,它以一些已知和任意的概率(例如,P(螺旋到链)= 0.001)从一个状态变化到另一个状态,然后发出一个氨基酸,概率为例如,P(蛋氨酸)= 0.11)。对于每一步,打印出状态和排放。然后,您可以观察后验概率接近每个站点的状态。

你可以让你想要这些为任意的,因为当你运行你的HMM你应该适当的分布收敛。

祝你好运!