ゲノムのリピート領域にマッピングされたリードを除く

ゲノムには大量のリピート配列が含まれておりヒト、マウスのゲノムはその約半分がリピートに関連した領域である。シーケンスされたリードをこのような領域にはマッピングすることは、その位置を一意に決めることができないので、困難である。一般的には、複数箇所にマップされるリードを、重複領域にランダムに配置する方法(リード数に応じて確率的に配置する方法が良いとされている)と、データからリピート領域を除いて解析を進める方法の2通りがある。転写因子の ChIP-seq ではリピート領域にかなり高いピークが形成され、正規化などのノイズになるため、リピート領域を最初から解析に含めない方法が取られることがある。この場合は、マッピング後、peak calling の前にこのような処理を行うことになる。

方法は、RNA-seq データから rRNA を除く方法と同じである。