宏基因组实战:基因注释Prokka

1.Prokka简介

细菌基因组、宏基因组的基因注释一直是一个非常复杂的问题，Prokka的出现改变了这一切。

Prokka: rapid prokaryotic genome annotation，快速的原核基因组注释。就是上面的神兽，猜猜是什么动物，但真不是皮卡丘。

Prokka是一个命令行软件工具，可以在一台典型台式机上在约10分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的，在遵循开源GPLv2许可证下可以从

http://www.vicbioinformatics.com/software.prokka.shtml 免费获得。

此软件2014年发表于Bioinformatics，截止2017年11月2日Google学术统计引用1265次，最新版本1.12于2017年3月14日更新，大小360MB。因为它是一个复杂的分析流程，依赖关系众多。

2.安装

方案一：源码安装

安装源码(下载时候会有一点慢)

git clone https://github.com/tseemann/prokka.git
# 安装依赖关系
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
# 安装perl包XML
sudo bash
export PERL_MM_USE_DEFAULT=1
export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
perl -MCPAN -e 'install "XML::Simple"'
exit

添加环境变量和设置数据库

# 添加环境变量
export PATH=$PATH:`pwd`/prokka/bin
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb

方案二：conda安装


conda activate mamba
mamba create -y -c anaconda -c bioconda prokka pandas seaborn ipykernel perl-bioperl==1.7.2 -n prokka
conda activate /home/gc/metaGEM/workflow/envs/prokkaroary
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb

3.使用prokka

# 建立工作目录
mkdir annotation-prokka
cd annotation-prokka
# 一句命令10分钟搞定之前别人半年的工作
prokka /home/gc/metaGEM/workflow/refined_bins/L1EFG190305--AM43/metawrap_50_10_bins/bin.1.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria --centre new-test --compliant

/home/gc/metaGEM/workflow/refined_bins/L1EFG190305–AM43/metawrap_50_10_bins/bin.1.fa 是你要注释文件的路径
–outdir prokka_annotation 输出文件的名称

输出文件如下

1
2
3

PROKKA_02182024.err  PROKKA_02182024.fna  PROKKA_02182024.gff  PROKKA_02182024.tbl
PROKKA_02182024.faa  PROKKA_02182024.fsa  PROKKA_02182024.log  PROKKA_02182024.tsv
PROKKA_02182024.ffn  PROKKA_02182024.gbk  PROKKA_02182024.sqn  PROKKA_02182024.txt

.gff | 基因注释文件，包括gff和序列，可用igv直接查看
.gbk | Genebank格式，来自gff
.fna | 输入contig核酸文件
.faa | 翻译CDS的AA序列
.ffn | 所有转录本核酸序列
.sqn | 用于提交的序列
.fsa | 输入序列，但有sqn的描述，用于tbl2asn生成sqn文件
.tbl | 特征表，用于tbl2asn生成sqn文件
.err | 错误报告
.log | 日志
.txt | 统计结果
.tsv | 所有注释基因特征表格

观看结果

# 进入结果目录
cd prokka_annotation
# 结果总结
cat PROKKA_02182024.txt
 
organism: Genus species strain 
contigs: 233
bases: 5994082
CDS: 5023
gene: 5080
rRNA: 3
repeat_region: 1
tRNA: 53
tmRNA: 1

上面我们看到结果统计的叠连群(contigs)数量，预测基因(CDS)数量等基本信息。下面看一下预测的基因序列。

预测基因展示：

# 查看序列的基因序列
less -S PROKKA_02182024.fsa
>gnl|new-test|BGAGNHGB_1 [gcode=11] [organism=Genus species] [strain=strain]
CCCCCACCGGACGCGGCGCGGGCGAGCCCGCTTGCGGGCCCCCCGGGCCCGCGGCGCCGG
GGGCGGCGGGCGGTGCGGCGGGGGGCGAAGGCTGCGGGGGCGCCGCGACCGCAGAACCGG
CGACGCCGATTCTCCCGACCACCGTGCCCACTTCGACGGTGGTGCCGGGCTGGATCAGGA
TCTCGGTGAGGACGCCCGCGATCGGCGCCGGTATCTCGGCATCGACCTTGTCGGTGGAGA
TCTCGAAGAGCGGTTCATCCCGTTTGACGGTTTCACCGATCTTCTTGAGCCACTTGGTGA
CGGTGCCTTCCGCGATGGATTCGCCCATCTGCGGCATGATCACGTCGGTCATTGATACCT
CACACGAAGGAGAAGGGTGGGTCCACGAAGGTCAAAGGGAAGCCCCGAACCGCCAGGCAG
CCGAACGCGTAGTCTAGCGCGGCCGCTCGTTTGCCGCGCTTCATCAGTATTCAGCGAGCG
CCCGGATGGCGTCCGCGATCTTCAGGGCGTTCGGGAGAAAGTACTCCTCGAGCGGGGGTG
AGTAGGGCACCGGGGTGTCGGGCGGAGCCACCCGCACGATGGGGGCGTCGAGGTGCTCGA