NGS関連(1) NGS解析用マッピングソフトの性能比較

ecSeq Bioinformaticsで紹介されていたNGS解析用マッピングソフトの性能比較に関する記事を読んだので、内容をまとめておこうと思います。

 

結論から言って、ecSeq Bioinformaticsが出しているデータを見る限り、単純な性能だけで見ると、

RNA-seqでは「STAR」

DNA-seqでは「BWA」

がベストチョイスというのが私の見解です。

まあ、STARは欠点もあるので考えものですが…。



NGS解析用マッピングソフトといえば、RNA-seqでは「Bowtie」、WGSなどのDNA-seqでは「BWA」を用いるのが一般的であるというのが以前からの私の認識でした。

 

しかし、近年ではENCODEプロジェクトで「Bowtie」よりもマッピングの精度が高い(らしい)「STAR」を使った例が出てくるなど、必ずしも「Bowtie」や「BWA」を使うことが本当にベストなのかとも思っていました。

 

ecSeq Bioinformaticsが上記の記事でその疑問に答えるデータを出してきています。

 今回は、STARとBowtie(もしくはBWA)を比較してどちらが優れているかを見て行きたいと思います。

 

RNA-seq 

True positive rate

Bowtie: 95.1%

STAR: 99.8%

Bowtieのほうがマッピング時の取りこぼしがやや多い傾向にあるようですね。

 

False positive

Bowtie: 122 hits

STAR: 167 hits

 FPに関してはSTARのほうがややミスアライメントが起こる可能性がありそうです。ただ、122や167hitsは誤差範囲といったところでしょうか。

 

Use times

Bowtie: 32.63s

STAR: 3.31s

STARが圧倒的に早いですね!

データを高速に処理できるのは大きいメリットです。

 

メモリ消費量

Bowtie: 3.76GB

STAR: 28.12GB

STARはメモリをバカ食いする…。

このメモリ消費量は困りもの(>_<)

少なくともうちのラボにあるLinuxのデスクトップパソコンじゃ処理できないです。

 

結果をまとめると、STARは高い精度でマッピングが可能である点と、データを高速に処理できる点で他のマッピングソフトと比較して非常に優秀ではあります。

 

一方で、STARはメモリ消費量が異常に高く、一般的なデスクトップパソコンでは解析が困難であるという致命的な欠点を持ち合わせているようです。

 

スパコンを利用しておりメモリ使用量を十分に確保できる場合は、「STAR」がRNA-seq用のマッピングソフトとしてベストチョイスであるといえます。

 

ただ、一般的なデスクトップパソコンで解析しているユーザーにとっては「Bowtie」一択かなと思います(BWAも良さげですが)。

 

Tuxedoパイプライン(Bowtie-Tophat-Cufflinks)は導入が楽で使い勝手もいいので、あえてSTARやBWAを利用するのはめんどいかなと私なんかは思ってしまいます。 また、STARやBWAを単体だと、Exon-junctionをまたいでるリードはアライメントできないでしょうし。

 

 DNA-seq

True positive rate

BWA-MEM: 98.6%

STAR: 99.3%

たいして変わりませんね。

 

False positive

BWA-MEM: 79 hits

STAR: 1139 hits

 さすがはBWA。圧倒的にFPの数が少ないです。

 

Use times

Bowtie: 87.91s

STAR: 0.99s

STARが相変わらずの爆速。こんなに違うものなんですか

 

メモリ消費量

Bowtie: 3.85GB

STAR: 28.12GB

やっぱり、STARはメモリ消費量が多いですね。

 

結果をまとめると、DNA-seq用のマッピングなら「BWA」一択でしょう。

DNA-seqに関しては、STARだとメモリ消費量も大きいし、False-positiveもやたら多いので選択肢に入ってこないかなと思います。