我有两个文件: ID.txt含蛋白质的ID,像这样:如何使用python或linux命令通过在本地数据库中搜索将蛋白质ID转换为蛋白质名称?
KKP65897.1
KKP42119.1
KKP91065.1
OGY93232.1
另一个文件是nr.faa。它是从NCBI下载的数据库fasta格式文件。它是这样的:
>KKP42119.1 hypothetical protein DDB_G027.......
MASTQNTVEEVAQJML.......
>KKP65897.1 hypothetical protein DDB_G127.......
MATSREEQNTVEEVAQJML.......
我想在IDs.txt被命名此FASTA数据库文件进行搜索,并返回蛋白质的名称,如“假定蛋白”,并将其存储在一个txt文件。通过这种方式,我将把这个ID与蛋白质名称联系起来。数据库文件是巨大的〜7G,我也提取了标题行'> .....'并将其保存到txt文件(〜3G)。也许在该文件中搜索会更快。
如何在Python或Linux命令行中执行此操作?
谢谢。
也许将平面文件加载到实际的关系数据库,如SQLite或MySQL。 –
谢谢,但我对SQLite或MySQL一无所知。有没有办法做到这一点在python或linux命令? – stevex