FASTQ format について

FASTQ はシーケンス配列とそのクオリティを記載するためのファイルフォーマットである。ファイル形式はテキストファイルなので、Unix/Linux の less コマンドやテキストエディタで見ることができる。イルミナ社のシーケンサーやNCBI Short Read Archive などのデータベースでもこのフォーマットが採用されており、多くの解析ソフトがこの形式を前提としている。 FASTQファイルはひとつのシーケンスリードの情報が4行単位で表現され、その単位が一枚のファイルに連らなっているファイルである。@で始まる最初の行は、シーケンスリードの情報が含まれたヘッダー行であり、FASTA形式の “>“ に値すると考えるとわかりやすい。次の行がリーケンスリードの塩基配列そのもので、ATGCNからなる。3行目も1行目と同じリードの情報を記載する行で+から始まる。大抵の場合は、単に “+”か、最初の行と同じ文字列になっている。4行目がシーケンスクオリティのスコアが符号化されたものである。

イルミナ社の FASTQ file は1行目の意味について述べる。イルミナ社のFASTQ file はシーケンサーが出力するバイナリファイルである BCL file から Casava というソフトウェアで生成する。Casava はイルミナ社が提供するシーケンサーに付属するソフトウェアである。Casava のバージョンによって、一部フォーマットが異なるのでそれについても解説する。

まず、Casava 1.8 より前の FASTQ file について解説する。@で始まるヘッダー行は”:”でセパレートされている。まず最初のフィールド HWI-ST554_0072 はシーケンサーの機械につけられたIDを示す。次の 8 はフローセルのレーン番号を示し、HiSeq, GAIIx シリーズでは1-8まである。フローセルのひとつのレーンは、tile に分けられているが、1はそのタイル番号を表している。1131, 1901 はそれぞれ tile 内にあるクラスターの x, y 座標を表わす。# の次の番号はマルチプレックス番号を示し、0の場合はマルチプレックスされていないことを示す。/の後の数字が 1 なら single-end, 2の場合は paired-end, あるいは、mate-pair read であることを示す。

@HWI-ST554_0072:8:1:1131:1901#0/1
TCCCAAGGAAGGCGTGCGTGTGTTTGAGTACTTTCAAAACACACTTCCTAC
+HWI-ST554_0072:8:1:1131:1901#0/1
fcfefffffaefff^edeceZccccddd`dffeefffffffef_deffdff

図. HiSeqから出力されたFASTQ file の例 (Casava 1.8より前)

Casava 1.8 以降の FASTQ file について解説する。@で始まるヘッダー行の形式が変更されている。まず、HWI-1KL121 がシーケンサにユニークに振られた機器IDである。これは以前のバージョンと変更はない。次の 46 は run ID でシーケンスを実行するたびに割り振られる。D0MVAACXX は flowcell に割り振られた ID である。以降については以前のバージョンと同じ意味である。1.8以降のヘッダーはスペースを挟んで、さらに情報が追加されている。最初の数字が 1 なら single-end, 2 なら paired-end である。次の文字は悪いリードを省くためのフィルターの結果を示しており、Y だと悪いリード、Nだとそれ以外という意味である。その次の数字は、XXX???を示す。最後の塩基はインデックスのシーケンスを表わしている。

@HWI-1KL121:46:D0MVAACXX:6:1101:9571:2529 2:N:0:CGATGT
CAGGCTTTAAAATCTGGAAGGAACACATGAGGGTCTCATCCACANNNATCA
+
CCCFFFFFHHHHHJJJJJJJJJJJJJJJJIIJJIJIJJJJJJJJ###07BB

図. HiSeqから出力されたFASTQ file の例 (Casava 1.8以降)