多个单元格在Excel

我有一个Excel文件这样的..多个单元格在Excel

Sr. No.  GENE ID Gene Id (NCBI) Protein Id Protein Sequences 
1   Lmo0001 984365   NP_463534.1 
2   Lmo0002 984379   NP_463535.1 
3   Lmo0003 984420   NP_463536.1

该列表扩展到3000个基因。我将这些序列保存在这样的文本板中，对于所有3000个基因，每个单独序列之间都有一个空格。

gi | 16802049 | ref | NP_463534.1 |染色体复制起始蛋白[李斯特菌EGD-E] MQSIEDIWQETLQIVKKNMSKPSYDTWMKSTTAHSLEGNTFIISAPNNFVRDWLEKSYTQFIANILQEIT GRLFDVRFIDGEQEENFEYTVIKPNPALDEDGIEIGKHMLNPRYVFDTFVIGSGNRFAHAASLAVAEAPA KAYNPLFIYGGVGLGKTHLMHAVGHYVQQHKDNAKVMYLSSEKFTNEFISSIRDNKTEEFRTKYRNVDVL LIDDIQFLAGKEGTQEEFFHTFNTLYDEQKQIIISSDRPPKEIPTLEDRLRSRFEWGLITDITPPDLETR IAILRKKAKADGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLVNKDITAGLAAEALKDIIPSSKS QVITISGIQEAVGEYFHVRLEDFKAKKRTKSIAFPRQIAMYLSRELTDASLPKIGDEFGGRDHTTVIHAH EKISQLLKTDQVLKNDLAEIEKNLRKAQNMF

GI | 16802050 | REF | NP_463535.1 | DNA聚合酶III亚基β[李斯特菌EGD-E] MKFVIERDRLVQAVNEVTRAISARTTIPILTGIKIVVNDEGVTLTGSDSDISIEAFIPLIENDEVIVEVE SFGGIVLQSKYFGDIVRRLPEENVEIEVTSNYQTNISSGQASFTLNGLDPMEYPKLPEVTDGKTIKIPIN VLKNIVRQTVFAVSAIEVRPVLTGVNWIIKENKLSAVATDSHRLALREIPLETDIDEEYNIVIPGKSLSE LNKLLDDASESIEMTLANNQILFKLKDLLFYSRLLEGSYPDTSRLIPTDTKSELVINSKAFLQAIDRASL LARENRNNVIKLMTLENGQVEVSSNSPEVGNVSENVFSQSFTGEEIKISFNGKYMMDALRAFEGDDIQIS FSGTMRPFVLRPKDAANPNEILQLITPVRTY

GI | 16802051 | REF | NP_463536.1 |假定蛋白lmo0003 [单增李斯特菌EGD-E] MMKDMTTGNPTKLIFLFAMPMLIGNLFQQFYTMIDAVIVGKFVSVDALAAVGATNSVNFFMISLIIGLMS GISVVVAQYFGFKDYDRLKDVIATATYAVVFSAIILTVAGVLLAKPLLILLRTPANILDDSTIFLTTLFI GILPMSLYNGMAAILRALGNSITPLIFLILSSLMNIALDFLFVVYMDMGVRGAAIATVLSQTAAAIAVIY YAYRHVPFMRIERAKFKLSTPLLKEMVRIGLPSGLQGSFISIGNMALQSLINGFGSSVVAAYTAASRIDS LTYQPGIAFGAASSMFAGQNIGAGKIDRVREGFWSGIKVVTAISIGITILVQLFARQFLLLFVDSSETEV INIGVSYLLIVSLFYVVVGILFVVRETLRGTGDAMVPLAMGIFELVSRLVIGFVLSLYIGYVGLWWATPV AWITATILGVWRYKSGAWQKKAVIRRK

GI | 16802052 | REF | NP_463537.1 |假定蛋白lmo0004 [单增李斯特菌EGD-E] MAETVKINSEFVTLGQLLQMIDVVSTGGMAKAYLSENTIYINGEQDNRRGKKLRNGDVILVPGVGKVKIE QGK

GI | 16802053 | REF | NP_463538.1 |重组蛋白F [单增李斯特菌EGD-E] MHLESIVLRNFRNYENLELEFSPSVNVFLGENAQGKTNLLEAVLMLALAKSHRTTNDKDFIMWEKEEAKM EGRIAKHGQSVPLELAITQKGKRAKVNHLEQKKLSQYVGNLNVVIFAPEDLSLVKGAPGIRRRFLNMEIG QMQPIYLHNLSEYQRILQQRNQYLKMLQMKRKVDPILLDILTEQFADVAINLTKRRADFIQKLEAYAAPI HHQISRGLETLKIEYKASITLNGDDPEVWKADLLQKMESIKQREIDRGVTLIGPHRDDSLFYINGQNVQD FGSQGQQRTTALSIKLAEIDLIHEETGEYPVLLLDDVLSELDDYRQSHLLGAIEGKVQTFVTTTSTSGID HETLKQATTFYVEKGTVKKS

是否有可能将每个序列中的每一行上的每一个蛋白质序列点，而无需复制和粘贴各手动？任何方法都很好。

P.S我很抱歉这个荒谬的表，但没有足够的声望点，我无法发布图片，这是我可以管理的最好的。

@swapnil但我想从记事本中的序列在第一个Excel表格的蛋白质序列列下以直线复制。

来源

2013-06-26 The Last Word

只需使用excel打开文本文件，它会问你关于分隔符指定那里|然后你会得到文件在excel – Swapnil

谢谢您的回答。我实际上使用正则表达式\ n^[a-z]在textpad上编辑它，然后将它复制到excel中。所以这个解决了。 Thx再次。我从另一个堆栈溢出问题得到了这个建议。

来源

2013-06-27 03:38:43

我实际上在perl后做了这个，因为textpad导致了问题。 –

那么，这不会是一个简单的复制/粘贴在这里。我觉得你可以做的是一切文本复制粘贴到新的Excel工作表，并做柱，分隔符管|得到最后一点：

chromosomal replication initiation protein [Listeria monocytogenes EGD-e] MQSIEDIWQETLQIVKKNMSKPSYDTWMKSTTAHSLEGNTFIISAPNNFVRDWLEKSYTQFIANILQEIT GRLFDVRFIDGEQEENFEYTVIKPNPALDEDGIEIGKHMLNPRYVFDTFVIGSGNRFAHAASLAVAEAPA KAYNPLFIYGGVGLGKTHLMHAVGHYVQQHKDNAKVMYLSSEKFTNEFISSIRDNKTEEFRTKYRNVDVL LIDDIQFLAGKEGTQEEFFHTFNTLYDEQKQIIISSDRPPKEIPTLEDRLRSRFEWGLITDITPPDLETR IAILRKKAKADGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLVNKDITAGLAAEALKDIIPSSKS QVITISGIQEAVGEYFHVRLEDFKAKKRTKSIAFPRQIAMYLSRELTDASLPKIGDEFGGRDHTTVIHAH EKISQLLKTDQVLKNDLAEIEKNLRKAQNMF 
DNA polymerase III subunit beta [Listeria monocytogenes EGD-e] MKFVIERDRLVQAVNEVTRAISARTTIPILTGIKIVVNDEGVTLTGSDSDISIEAFIPLIENDEVIVEVE SFGGIVLQSKYFGDIVRRLPEENVEIEVTSNYQTNISSGQASFTLNGLDPMEYPKLPEVTDGKTIKIPIN VLKNIVRQTVFAVSAIEVRPVLTGVNWIIKENKLSAVATDSHRLALREIPLETDIDEEYNIVIPGKSLSE LNKLLDDASESIEMTLANNQILFKLKDLLFYSRLLEGSYPDTSRLIPTDTKSELVINSKAFLQAIDRASL LARENRNNVIKLMTLENGQVEVSSNSPEVGNVSENVFSQSFTGEEIKISFNGKYMMDALRAFEGDDIQIS FSGTMRPFVLRPKDAANPNEILQLITPVRTY 
hypothetical protein lmo0003 [Listeria monocytogenes EGD-e] MMKDMTTGNPTKLIFLFAMPMLIGNLFQQFYTMIDAVIVGKFVSVDALAAVGATNSVNFFMISLIIGLMS GISVVVAQYFGFKDYDRLKDVIATATYAVVFSAIILTVAGVLLAKPLLILLRTPANILDDSTIFLTTLFI GILPMSLYNGMAAILRALGNSITPLIFLILSSLMNIALDFLFVVYMDMGVRGAAIATVLSQTAAAIAVIY YAYRHVPFMRIERAKFKLSTPLLKEMVRIGLPSGLQGSFISIGNMALQSLINGFGSSVVAAYTAASRIDS LTYQPGIAFGAASSMFAGQNIGAGKIDRVREGFWSGIKVVTAISIGITILVQLFARQFLLLFVDSSETEV INIGVSYLLIVSLFYVVVGILFVVRETLRGTGDAMVPLAMGIFELVSRLVIGFVLSLYIGYVGLWWATPV AWITATILGVWRYKSGAWQKKAVIRRK 
hypothetical protein lmo0004 [Listeria monocytogenes EGD-e] MAETVKINSEFVTLGQLLQMIDVVSTGGMAKAYLSENTIYINGEQDNRRGKKLRNGDVILVPGVGKVKIE QGK 
recombination protein F [Listeria monocytogenes EGD-e] MHLESIVLRNFRNYENLELEFSPSVNVFLGENAQGKTNLLEAVLMLALAKSHRTTNDKDFIMWEKEEAKM EGRIAKHGQSVPLELAITQKGKRAKVNHLEQKKLSQYVGNLNVVIFAPEDLSLVKGAPGIRRRFLNMEIG QMQPIYLHNLSEYQRILQQRNQYLKMLQMKRKVDPILLDILTEQFADVAINLTKRRADFIQKLEAYAAPI HHQISRGLETLKIEYKASITLNGDDPEVWKADLLQKMESIKQREIDRGVTLIGPHRDDSLFYINGQNVQD FGSQGQQRTTALSIKLAEIDLIHEETGEYPVLLLDDVLSELDDYRQSHLLGAIEGKVQTFVTTTSTSGID HETLKQATTFYVEKGTVKKS

这应该去列E.然后在列男，你可以把公式：

=mid(E1, find("]", E1)+2, len(E1))

这将提取右方括号]后的一切，从而返回你所需要的序列。

假设这些文件位于excel文件（其中第一个工作表包含您现在拥有的表格）的工作簿中名为Sheet2的工作表中。

在第一个表，把公式：

=vlookup(D2, Sheet2!D:F, 3, 0)

这是假设你的文本文件不在同一量级的蛋白质中的ID表所列。否则，您可以简单地将F列结果的值（复制，粘贴特殊值，粘贴值）复制/粘贴到第一张表格中，

来源

2013-06-26 12:18:42 Jerry

多个单元格在Excel

回答

相关问题