PEZY Computingでは世界最高精度、最高速を実現すべくヒト全ゲノム解析システム開発を継続しております。
1)概要・特徴
ZettaScaler-3.0 Server Unit for Human Genome Analysisは、PEZY Computingが独自に設計・開発したPEZY-SC3チップを4基搭載したZettaScaler-3.0 Server Unit上で、業界標準のソフトウェアを最適化したアプリケーションpzGermline-pipelineを用いて2次的なヒト全ゲノム解析を高速・高精度に処理するプラットフォームです。
・1台のサーバーで1日当たり100件程度のヒト全ゲノムデータ(100Gbp/Sample 相当)を処理します。
・高速化のために精度を犠牲にすることなく、極めて高い解析精度を持った結果を提供します。
例:SNP F値:約0.999、INDEL F値:約0.996、処理時間約15分間(100Gbp換算)
(Genome In A Bottle, HG001 benchmark ver. 3.3.2 にて評価を行いました。)
詳細はホワイトペーパーをご覧ください。
2)解析ワークフロー:FASTQ ファイル入力からVCFファイル生成まで
[FASTQ] → Alignment → Coordinate Sorting → Mark Duplicates → Base Quality Score Recalibration & Apply BQSR → HaplotypeCaller→ [VCF]
ヒトゲノム解析において最もよく利用されている、GATK Best Practice のパイプラインで使用されているソフトウェアを高速化しました。100GbaseのFASTQを入力とした時に15分以内でバリアントコールまで完了します。
高速化のために以下の改良を行っています。
・PEZY-SC3移植によるアクセラレーション
・中間ファイルをオンメモリ化
・CPU処理の最適化
高速化だけでなく精度の向上も行っています。
・BWA MEMに精度向上のためのオプションを実装
・GATK 4.2 で実装された精度の高い確率モデルを実装
3)ZettaScaler-3.0 Server Unit仕様
Baseboard: EPX-BASE2 x 1
CPU: AMD EPYC x 1
Accelerator:PEZY Computing MOD-SC3H (PCIe Gen4x16 bus) x max 4 modules
Main memory:DDR4 ECC Registered 3200MHz SDRAM 1TB(max 2TB)
Storage:M.2 NVMe SSD 2TB x 4
OS:AlmaLinux 9
標準構成価格:1,000万円(税抜)
4)PzBWA-MEM
pzBWA-MEM は、BWA-MEM version 0.7.17 (r1198) 1をベースに、PEZY Computing 社による改良が加えられた、高速なアライメントソフトウェアです。
改良点は以下の通りです。
・PEZY-SC3 によるアライメント処理の高速化
・パイプライン段数とパイプライン構造の最適化による処理の高速化
・Fastq 読み込みの最適化による高速なクエリデータの読み込み
・出力をオンメモリにすることによる後段処理の高速化
・スコアを調整するためのオプション等の追加 pzBWA-MEM で追加されたオプション (defaultではBWA-MEMと同等の動作をします)
・Alternate contig へのアライメントのリフトオーバー機能
・既知の変異の情報を利用した感度向上
5)PzHaplotypeCaller
PzHaplotypeCallerは、GATK4.2.0.0のHaplotypeCallerをベースに、PEZY Computing社で高速化・高精度化を行ったゲノム変異解析用ソフトウェアです。
改良点は以下の通りです。
・GATK4.2.0.0 HaplotypeCallerをもとにC++でフルスクラッチ開発
・PEZY-SC3を使用した処理の高速化
・CPU処理の最適化による高速化
・GATK 4.2で実装された確率モデルの実装
・Foreign Read Detection (FRD)
・Base Quality Dropout (BQD)
・DragSTR