なぜアダプタやプライマー配列を除く必要があるのか

シーケンスの際に、読みたいインサートを突き抜けてアダプタ/プライマ配列が現われることがある。特にイルミナ社のシーケンスはエラー少ないものの、そのなかでもよくあるエラーがこのアダプタ/プライマ配列の混入である。インサート長が短い場合や、インサートがみあたらず、アダプターダイマーのような配列に由来すると考えられる。

このような配列は mapping の前に除いておいたほうが良いとされている。しかし mapping すると、その配列はゲノムに正しくマップされないため、マッピングスコアなどにより、実質的にはその後の解析に含まれないようにするすることも可能である。マッピングの計算コストがそれほどかからなくなってきた現在、先にこのような配列をフィルタする必要があるのだろうか。

答えとしては、それでも除いたほうが良い、である。なぜなら、マッピングされなかった配列がどのような理由でマッピングできなかったのかを知ることは、ライブラリの質を評価することに繋がるためである。最初にこれらの配列をフィルタすることで、それがどのぐらい含まれているのかを知り、それを実験者にフィードバックすることが重要である。仮にアダプタ配列ばかりが読まれると、リードがアダプタDNA断片に奪われてしまうため、期待されるリード読まれる機会が減る。これによりシグナルノイズ比が悪くなる。これは後の解析の成否にかかわることである。このような場合は、読むべきDNA断片とアダプタ量の比率を実験的に調整したり、アダプタダイマーを除くサイズセレクションの精度を上げたり、などの実験的に工夫が必要になる。このような理由に、自分のシーケンス実験のヘルスチェックのために、フィルタリングを行い、その統計情報を持つべきなのである。