1.Prokka简介
细菌基因组、宏基因组的基因注释一直是一个非常复杂的问题,Prokka的出现改变了这一切。
Prokka: rapid prokaryotic genome annotation,快速的原核基因组注释。就是上面的神兽,猜猜是什么动物,但真不是皮卡丘。
Prokka是一个命令行软件工具,可以在一台典型台式机上在约10分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,在遵循开源GPLv2许可证下可以从
http://www.vicbioinformatics.com/software.prokka.shtml 免费获得。
此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265次,最新版本1.12于2017年3月14日更新,大小360MB。因为它是一个复杂的分析流程,依赖关系众多。
2.安装
方案一:源码安装
安装源码(下载时候会有一点慢)
1 2 3 4 5 6 7 8 9
| git clone https://github.com/tseemann/prokka.git
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
sudo bash export PERL_MM_USE_DEFAULT=1 export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps" perl -MCPAN -e 'install "XML::Simple"' exit
|
添加环境变量和设置数据库
1 2 3 4 5 6
| export PATH=$PATH:`pwd`/prokka/bin
prokka --setupdb
prokka --listdb
|
方案二:conda安装
1 2 3 4 5 6 7 8
| conda activate mamba mamba create -y -c anaconda -c bioconda prokka pandas seaborn ipykernel perl-bioperl==1.7.2 -n prokka conda activate /home/gc/metaGEM/workflow/envs/prokkaroary
prokka --setupdb
prokka --listdb
|
3.使用prokka
1 2 3 4 5
| mkdir annotation-prokka cd annotation-prokka
prokka /home/gc/metaGEM/workflow/refined_bins/L1EFG190305--AM43/metawrap_50_10_bins/bin.1.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria --centre new-test --compliant
|
- /home/gc/metaGEM/workflow/refined_bins/L1EFG190305–AM43/metawrap_50_10_bins/bin.1.fa 是你要注释文件的路径
- –outdir prokka_annotation 输出文件的名称
输出文件如下
1 2 3
| PROKKA_02182024.err PROKKA_02182024.fna PROKKA_02182024.gff PROKKA_02182024.tbl PROKKA_02182024.faa PROKKA_02182024.fsa PROKKA_02182024.log PROKKA_02182024.tsv PROKKA_02182024.ffn PROKKA_02182024.gbk PROKKA_02182024.sqn PROKKA_02182024.txt
|
.gff | 基因注释文件,包括gff和序列,可用igv直接查看
.gbk | Genebank格式,来自gff
.fna | 输入contig核酸文件
.faa | 翻译CDS的AA序列
.ffn | 所有转录本核酸序列
.sqn | 用于提交的序列
.fsa | 输入序列,但有sqn的描述,用于tbl2asn生成sqn文件
.tbl | 特征表,用于tbl2asn生成sqn文件
.err | 错误报告
.log | 日志
.txt | 统计结果
.tsv | 所有注释基因特征表格
观看结果
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| cd prokka_annotation
cat PROKKA_02182024.txt organism: Genus species strain contigs: 233 bases: 5994082 CDS: 5023 gene: 5080 rRNA: 3 repeat_region: 1 tRNA: 53 tmRNA: 1
|
上面我们看到结果统计的叠连群(contigs)数量,预测基因(CDS)数量等基本信息。下面看一下预测的基因序列。
预测基因展示:
1 2 3 4 5 6 7 8 9 10 11 12 13
| less -S PROKKA_02182024.fsa >gnl|new-test|BGAGNHGB_1 [gcode=11] [organism=Genus species] [strain=strain] CCCCCACCGGACGCGGCGCGGGCGAGCCCGCTTGCGGGCCCCCCGGGCCCGCGGCGCCGG GGGCGGCGGGCGGTGCGGCGGGGGGCGAAGGCTGCGGGGGCGCCGCGACCGCAGAACCGG CGACGCCGATTCTCCCGACCACCGTGCCCACTTCGACGGTGGTGCCGGGCTGGATCAGGA TCTCGGTGAGGACGCCCGCGATCGGCGCCGGTATCTCGGCATCGACCTTGTCGGTGGAGA TCTCGAAGAGCGGTTCATCCCGTTTGACGGTTTCACCGATCTTCTTGAGCCACTTGGTGA CGGTGCCTTCCGCGATGGATTCGCCCATCTGCGGCATGATCACGTCGGTCATTGATACCT CACACGAAGGAGAAGGGTGGGTCCACGAAGGTCAAAGGGAAGCCCCGAACCGCCAGGCAG CCGAACGCGTAGTCTAGCGCGGCCGCTCGTTTGCCGCGCTTCATCAGTATTCAGCGAGCG CCCGGATGGCGTCCGCGATCTTCAGGGCGTTCGGGAGAAAGTACTCCTCGAGCGGGGGTG AGTAGGGCACCGGGGTGTCGGGCGGAGCCACCCGCACGATGGGGGCGTCGAGGTGCTCGA
|