遺伝子発現量(FPKM)を計算する

大量のリード配列から、遺伝子ごとにRNAの発現量を見積る必要がある。これには大別して方法が2つある。ひとつは既知の遺伝子領域に含まれたリード数を数え挙げる方法である。もうひとつは、既知の遺伝子領域の情報を使わず、リードを組み立てて(de novo assembl)、転写されたRNAの構造を予測した後、その発現量を定量する方法である。リファレンスゲノムの精度が高く、完全長cDNAやEST (Expressed Sequence Tag)のシーケンスプロジェクトが進んでいる生物種では、前者の方法が簡単である。後者の方法を取るのは、新規の遺伝子構造(アイソフォーム)や融合遺伝子の発見が目的である場合や、リファレンスとなるゲノムやトランスクリプトームが明らかではない場合である。

マッピングデータから遺伝子発現量を定量する

$ cuffdiff -p 24 ensembl_gene.gtf
  -L sample01,sample02,sample03,control01,control02,control03
  -o results 
  sample01.bam,  sample02.bam,  sample03.bam 
  control01.bam, control02.bam, control03.bam

重複した実験をコンマで区切る リファレンストランスクリプトームの GTF が正しいこと -L ではサンプルごとのラベルを指定する。これをちゃんと入れないと cummeRbund で困る

現在のバージョンでは cuffdiff は使わないので注意