遺伝子発現量(FPKM)を計算する
大量のリード配列から、遺伝子ごとにRNAの発現量を見積る必要がある。これには大別して方法が2つある。ひとつは既知の遺伝子領域に含まれたリード数を数え挙げる方法である。もうひとつは、既知の遺伝子領域の情報を使わず、リードを組み立てて(de novo assembl)、転写されたRNAの構造を予測した後、その発現量を定量する方法である。リファレンスゲノムの精度が高く、完全長cDNAやEST (Expressed Sequence Tag)のシーケンスプロジェクトが進んでいる生物種では、前者の方法が簡単である。後者の方法を取るのは、新規の遺伝子構造(アイソフォーム)や融合遺伝子の発見が目的である場合や、リファレンスとなるゲノムやトランスクリプトームが明らかではない場合である。
マッピングデータから遺伝子発現量を定量する
$ cuffdiff -p 24 ensembl_gene.gtf
-L sample01,sample02,sample03,control01,control02,control03
-o results
sample01.bam, sample02.bam, sample03.bam
control01.bam, control02.bam, control03.bam
重複した実験をコンマで区切る リファレンストランスクリプトームの GTF が正しいこと -L ではサンプルごとのラベルを指定する。これをちゃんと入れないと cummeRbund で困る
現在のバージョンでは cuffdiff は使わないので注意