NGS関連(1) NGS解析用マッピングソフトの性能比較
ecSeq Bioinformaticsで紹介されていたNGS解析用マッピングソフトの性能比較に関する記事を読んだので、内容をまとめておこうと思います。
結論から言って、ecSeq Bioinformaticsが出しているデータを見る限り、単純な性能だけで見ると、
RNA-seqでは「STAR」
DNA-seqでは「BWA」
がベストチョイスというのが私の見解です。
まあ、STARは欠点もあるので考えものですが…。
NGS解析用マッピングソフトといえば、RNA-seqでは「Bowtie」、WGSなどのDNA-seqでは「BWA」を用いるのが一般的であるというのが以前からの私の認識でした。
しかし、近年ではENCODEプロジェクトで「Bowtie」よりもマッピングの精度が高い(らしい)「STAR」を使った例が出てくるなど、必ずしも「Bowtie」や「BWA」を使うことが本当にベストなのかとも思っていました。
ecSeq Bioinformaticsが上記の記事でその疑問に答えるデータを出してきています。
今回は、STARとBowtie(もしくはBWA)を比較してどちらが優れているかを見て行きたいと思います。
RNA-seq
True positive rate
Bowtie: 95.1%
STAR: 99.8%
Bowtieのほうがマッピング時の取りこぼしがやや多い傾向にあるようですね。
False positive
Bowtie: 122 hits
STAR: 167 hits
FPに関してはSTARのほうがややミスアライメントが起こる可能性がありそうです。ただ、122や167hitsは誤差範囲といったところでしょうか。
Use times
Bowtie: 32.63s
STAR: 3.31s
STARが圧倒的に早いですね!
データを高速に処理できるのは大きいメリットです。
メモリ消費量
Bowtie: 3.76GB
STAR: 28.12GB
STARはメモリをバカ食いする…。
このメモリ消費量は困りもの(>_<)
少なくともうちのラボにあるLinuxのデスクトップパソコンじゃ処理できないです。
結果をまとめると、STARは高い精度でマッピングが可能である点と、データを高速に処理できる点で他のマッピングソフトと比較して非常に優秀ではあります。
一方で、STARはメモリ消費量が異常に高く、一般的なデスクトップパソコンでは解析が困難であるという致命的な欠点を持ち合わせているようです。
スパコンを利用しておりメモリ使用量を十分に確保できる場合は、「STAR」がRNA-seq用のマッピングソフトとしてベストチョイスであるといえます。
ただ、一般的なデスクトップパソコンで解析しているユーザーにとっては「Bowtie」一択かなと思います(BWAも良さげですが)。
Tuxedoパイプライン(Bowtie-Tophat-Cufflinks)は導入が楽で使い勝手もいいので、あえてSTARやBWAを利用するのはめんどいかなと私なんかは思ってしまいます。 また、STARやBWAを単体だと、Exon-junctionをまたいでるリードはアライメントできないでしょうし。
DNA-seq
True positive rate
BWA-MEM: 98.6%
STAR: 99.3%
たいして変わりませんね。
False positive
BWA-MEM: 79 hits
STAR: 1139 hits
さすがはBWA。圧倒的にFPの数が少ないです。
Use times
Bowtie: 87.91s
STAR: 0.99s
STARが相変わらずの爆速。こんなに違うものなんですか。
メモリ消費量
Bowtie: 3.85GB
STAR: 28.12GB
やっぱり、STARはメモリ消費量が多いですね。
結果をまとめると、DNA-seq用のマッピングなら「BWA」一択でしょう。
DNA-seqに関しては、STARだとメモリ消費量も大きいし、False-positiveもやたら多いので選択肢に入ってこないかなと思います。