Tips for NGS Data Analysis

次世代DNAシーケンサーのデータ解析技術 (2013/02/01)

著者について

二階堂愛, Ph.D dritoshi+ngstips@gmail.com 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニットリーダー

注意

この文章の著作権は二階堂愛にあります。ファイルのダウンロード、印刷、複製、大量の印刷は自由におこなってよいです。企業、アカデミアに関わらず講義や勉強会で配布してもよいです。ただし販売したり営利目的の集まりで使用してはいけません。ここで許可した行為について二階堂愛に連絡や報告する必要はありません。常に最新版を配布したいので、書籍やネット上での再配布や転載は禁止します。内容についての問い合わせはお気軽にメールしてください。

この文章について

  • この文章は各項目の執筆時の情報で、すでに私が使っていない方法や、方法そのものが変更されているもの、などがあります。
  • NGS解析のノウハウをメモしたものを gitbook に変換したものです。節によってはまったく説明がないものもあります。
  • 今のところ出版の予定はないですが、もし出版に興味のある方がいれば、連絡ください。

書くことリスト

  • イントロ
    • NGSについて
    • オープンソースとバイオインフォマティクス
    • 対象シーケンサー、HiSeq, Miseq, GAIIx だが、454, ion torrent, SOLiD, 5500xl などでも fastq や bam/sam などになれば同じこと
    • 前提知識、Unix のファイル・ディレクトリ構造、簡単なコマンド。一部 R や Ruby を利用する。
    • Bayes Linuxへ対応
  • RNA-seq
    • トランスクリプトへのマッピング系
    • de novo transcriptome
  • その他
    • Bayes Linuxについて
    • 仮想化、DevOps

推奨環境

Mac OS X あるいは Linux を推奨する。Windows + Cygwin でも可能なものが多いが、無償の仮想マシン環境 VMware Player と Linux (Ubuntu) を利用することを強くお勧めする。CentOS はソフトウェアのアップデートが遅いので避けるべきである。または、手元にLinux 環境を持つのが難しい場合は、Amazon EC2 で Linux の Amazon Machine Image を利用する方法もある。

コマンドとしては、git, wget, w3m を利用するのであらかじめインストールしておくとよい。Mac OS X の場合は、MacPorts をインストールし、 (homebrewに書き直す必要あり、RやGCC, Xcodeについても買く必要がある) (Bayes Linuxへの対応も書く)

$ sudo port install wget
$ sudo port install w3m
$ sudo port install git-core

しておくこと。シェルは zsh を前提としているがほかのシェルでも問題がないように説明している。プログラミングを前提とはしないが、一部 R, Ruby, Java なども利用する。

謝辞

日常的にシーケンス技術について議論させて頂いたマックス・プランク研究所の足立健次郎氏、理化学研究所 情報基盤センターバイオインフォマティクス研究開発ユニットの笹川洋平氏、團野宏樹氏、林哲太郎氏を含むのすべてのラボメンバーに感謝したい。彼らのおかげでシーケンスの実験的側面について深く知ることができた。また、ここですべての名前を挙げることはできないが、Twitter や Google+, NGS現場の会, オープンバイオ研究会、文部科学省セルイノベーションプロジェクト、そして理研CDBシーケンスプラットフォームなどで、日々シーケンス技術に関して情報を交換させて頂きたみなさまにも感謝したい。