DNA配列のGC%を計算する

multi fasta 形式で保存されたDNAの GC content を計算するには、EMBOSSのgeeceeを利用すると簡単である。一般的なコンピュータでなら、マウスの全転写産物のGC contentの計算が、8秒程度で終了する。例では、ensmust.67.fa に保存されているmRNA配列のGC%を計算し、ensmust.67.gc.txt に保存する。

$ geecee -sequence ensmust.67.fa -outfile ensmust.67.gc.txt

出力の中身は以下のようになっている。

$ cat ensmust.67.gc.txt
#Sequence   GC content
ENSMUST00000000096  0.53
ENSMUST00000000137  0.40
ENSMUST00000000109  0.43
ENSMUST00000000127  0.53

長さとGC content の両方が欲しい場合は infoseq を利用したほうがよい。

$ infoseq -heading N -usa N -database N -type N -description N -accession N -sequence ensmust.67.fa | perl -lpe "s/ +$//; s/ +/\t/g" > ensmust.67.infoseq.txt