Japan Bioinformatics KK

 

Data management, distribution, security and analysis

 
 
 

Home

Microarray Survey

Profile

Simbiot

Single-user accounts

Simbiot Mobile

Simbiot Collaboration

Private Servers

Perosnalized Medicine

Intro to Simbiot

Intro To Simbiot (Jp)

About Microarrays

Gene Expression Analysis

cDNA: Expression Analysis

cDNA: Time Course

cDNA: Clustering

cDNA: PCA

SNP Analysis

SNP: GWAS

SNP: LD

SNP: CNV

Consulting

High Speed Sequencers

HSS: De Novo RNA Seq

HSS: RNA Seq

HSS: ChIP Seq

HSS: Genomic Variations

HSS: miRNA Seq

News

News Item: DNAFORM

News Item: Nikkei Bio

News Item: GEN

Case Studies

Case Study: DNAFORM

Case Study: SMU

Case Study: CRO

Partners

Publications

Employment

Contact

 
 

Simbiotを用いた解析のてびき


cDNA データ解析

下のチャートは基本的なcDNAアレイ解析の流れを示します。始めに、分析したいデータをアップロードし、Simbiotデータベースにサブミットします。

サブミット後、Rowデータマトリックス(RDM)を作成するためにデータをエクスポートします。Illumina社 のマイクロアレイのみScaledデータマトリックス(SDM)作成のため、データのスケール化が可能です。Affymetrix社のチップは自動的にlog base 2 (log2)変換されます。スケール化後は様々な正規化機能を利用してNormalizedデータマトリックス(NDM)を作成できます。Normalizedデータマトリックスはそのまま解析に用いることもできますし、pathwayやgene ontology、その他の条件でフィルターをかけて、目的の遺伝子を解析することもできます。

SNP データ解析

SNPマイクロアレイの解析プロセスも同様の過程で行います:


Affymetrix社のチップはスケールの変換と正規化を自動的に行います。Illumina社のマイクロアレイはエクスポート後に正規化を行う必要があります(様々なパラメータを使うことができます)。エクスポートおよび任意による正規化の後、データはbuilt-in peer-reviewedアルゴリズムを用いて解析することができます。また、様々な条件でデータをフィルターにかけて、目的のデータだけを解析することもできます。


プロセスとステータス

Simbiotは非同期性のシステムです。ユーザーがリクエストを作成すると、リクエストはキューに並べられ、システムが稼動可能な段階になった時に実行するようにスケジュールを組みます。通常、どのようなリクエストでも以下のようなステータスに置かれます。

  1. ペンディング: リクエストを受け付け、待機しています
  2. 実行中:    リクエストを実行しています
  3. 完了:     リクエストが完了しました
  4. エラー:    リクエストの実行ができません

リクエストの状況は「オブジェクトの詳細」のページに全プロジェクトリストと共に表示されます。さらに、ステータスがカラーで表示されます。

もし、オブジェクトが長時間ペンディング状態にあったら、他のユーザーのリクエストを実行中ということです。ペンディング中の全リクエスト数はスクリーン右上のキューをクリックして表示できます。

リクエストの実行が完了すると、ステータスは「完了」にかわり、ユーザー登録時に登録したメールアカウントへ通知メールが送られます。この通知メールには完了したリクエストへのリンクが貼られています.

再解析(resubmission)のリクエストとWhat-If解析

ほとんどの解析結果で、サンプルの再分類をすることなくパラメータの変更を行うことが出来ます。この機能は、パラメータタブで操作できます:


パラメータは解析により異なり、オリジナルのリクエスト画面で一度使われたものと同じものが表示されます。新しいパラメータをセットし、名前と、必要に応じてコメントを入れ、再解析をクリックして新たに解析を開始します.

共通スクリーン形式

Simbiotシステムは共通に利用されている画面形式を利用しています。これらのうち、解析に関連するものについて以下に示します.

解析のサブミット画面

通常、解析のサブミッションの過程では、サンプルを分類して、パラメータをセット、名前とコメントを入力してプロセスを開始します。ほとんどのサブミッション/分類スクリーンは次のようなレイアウトになります.

例えば、タイムコース解析などの場合、サンプルの分類・順序が重要となってきます。一方、発現解析などでは重要ではありません。サンプルの分類後、パラメータをセット、任意で名前とコメントを入力し、解析ボタンをクリックして解析を開始します。

解析完了後は、いくつかの共通機能を持つ、解析オブジェクトにアクセスできます。共通機能の一つに、先の再解析(resubmission)で述べたものが含まれます.

対話型グリッド

解析で使用する対話型のグリッドは一般的なテーブル形式です。グリッドは各々の解析やデータタイプによって異なるレイアウトをとります。しかしながら、全てのレイアウトは共通の特徴を持ち合わせています.
外部リンクとして、RefseqとNCBI (Sayers, Barrett et al.)、Ensembl (Hubbard, Aken et al. 2009)、SwissProt/UniProt (Boeckmann, Bairoch et al. 2003) (all using the appropriate keys)、gene symbolを基本とした PubMed検索へのリンクが貼られています。  プローブIdにはプローブの詳細ページへのリンクがあります。これにはベンダーが提供するプローブ情報も含みます。一番左のカラムにある矢印をクリックすると、その欄の詳しい情報が出てきます。通常、この情報の中には Gene Ontology (Ashburner, Ball et al. 2000)とKEGG Pathways (Kanehisa and Goto 2000)があり、これまでにプローブのグラフが作成されていた場合、グラフも表示されます.

プローブの詳細

例えば、下の図はAffymetrix社のプローブ情報の画面です.
上部はベンダーが提供している情報です。プローブ配列情報はGene bankのBLASTにリンクが貼られています。ベンダー情報の下には、プローブのJBIバリデーションを含む1つあるいは2つの表があります(利用できない場合もあります)。ここには、最新のT Ensembl’s (Hubbard, Aken et al. 2009) transcriptsへの配列アライメントがあります。このバリデーションには、 Ensembl (Hubbard, Aken et al. 2009)へのリンクが含まれています.

Add-Hocグラフ

グリッド上のグラフのページではAd-Hocグラフが表示されます(この画面は解析結果の詳細画面のタブからもアクセスできます).
もし、 対話型グリッドからこの画面に入ったのであれば、Gene Symbolはすでに選択されおり、自動的にプロットが開始されています。プロットは複数の画面で表示されます;遺伝子プローブ一つにつき一つのgene symbolが対応します。もちろん、事前にgene setを選択して複数のgene symbolをプロットすることもできます。 JPEG形式に加え、PDFファイルでも画像をダウンロードすることができます。画像をマウスでクリックすることでよりきれいな画像を表示できます.

追加データ

一番左の下向き矢印をクリックすることで、特定のプローブに対する追加データを表示することができます。Gene Ontology (Ashburner, Ball et al. 2000), KEGG Pathways (Kanehisa and Goto 2000) と、これまでに作成されたグラフがあれば、併せて表示されます.

スクロールバー, カラムのサイズ変更と並べ替え

通常、グリッドの一番左のカラムはアノテーション情報、右側カラムには計算値が入っています。スクロールバーを右へ動かして、さらに続くカラムを見ることができます.
カラムサイズはカラムの仕切りをクリック・ドラッグして変えることができます。リスト全て、どのカラムでもマウスをクリックすることで並べ替えができます。一度クリックして昇順、もう一度クリックすることで降順になります.

Gene Setの保存

並べ替えが完了したら、gene setを保存するためのグリッド画面が使えるようになります.
gene setの保存ボタンをクリックすると、ウィンドウが表示されます。必ず名前とコメントを入れてください。次に、どのように遺伝子を選択するかを選びます。最新の並べ替え順番において、上からX遺伝子を選択する、あるいはある数より少ない(昇順の場合)、もしくは、多く(降順の場合)でも選択できます。この数は最新の並べ替えと照らし合わされ、Gene setで選択した基準と一致する全ての遺伝子がGene Setに保存されます.

対話型グラフ

対話型グラフには解析オブジェクトのグラフタブからアクセスできます。このタブはJAPEG画像を表示すると共に、PDFや対話型グラフアプリケーションへリンクしています.
Interactiveをクリックするとアプリケーションが開始されます.

グラフには4つの項目があります:

  • アクション選択ボタン
  • メイン画像
  • ナビゲーション画像
  • 選択ポイントのリスト

アクション選択

ポイントを選択、ポイントの選択解除、全てのポイントの選択解除、ズームイン、ズームアウト、の操作ができます。これらの選択はメイン画面のアクション選択から実行できます。

選択ではそれぞれのポイント上でマウスをクリックして各々のプローブを選択します。また、クリック・ドラッグで範囲を指定し、複数のポイントを選択することもできます。画面上の選択がハイライトされている間はポイントの選択を続けることができます。

選択解除も選択時と同じように行います。ここではすでに選択してあるポイントからの削除を行います。

全ての選択を解除は全てのポイントの選択を解除します。

ズームは範囲を指定し、その選択範囲内を拡大して見ることが出来ます。メイン画面がズームモードである場合、右上のナビゲーション画像の操作で、メイン画面の範囲を変更することができます。ズームモードであれば、この選択範囲内で選択あるいは選択解除の操作をすることができます。

ズームアウトではメイン画面が最初の状態に戻ります.

選択したポイント

この画面も対話型グリッドと同様の形式です。Simbiot内と外部データベース、両方の詳細なアノテーション情報のリンクが貼られています.
Gene setあるいはSNP setを保存するには名前とコメントを入力し、保存をクリックして、選択したポイントで指定された遺伝子を含む新規のgene setを作成します.

アルゴリズム

データの抽出と前処理機能

Simbiotはデータの処理・解析にpeer-reviewedアルゴリズムを使用しています。エクスポート過程では下に示すBioconductor (Gentleman, Carey et al. 2004)ツールを利用しています:

  1. Affymetrix cDNA chips:           Bioconductor affy (Gautier, Cope et al. 2004)
  2. Affymetrix SNP chips: Bioconductor crlmm (Carvalho, Bengtsson et al. 2007)
  3. Illumina cDNA microarrays:     Bioconductor lumi (Du, Kibbe et al. 2008)
  4. Illumina SNP microarrays:        Bioconductor beadarraySNP (Oosting, Lips et al. 2007)

データ解析

データ解析では、peer-reviewedと標準の解析がデータ・独立形式が統合されています:

  • クラスタリング: Cluster 3.0 (de Hoon, Imoto et al. 2004)、 Rを基本としたクラスタリング機能
  • 標準統計:Rを基本としたクラスタリング機能
  • 発現解析: samr (Tusher, Tibshirani et al. 2001)、Bioconductor limma (Smyth 2004)とLPE (Jain, Thatte et al. 2003)パッケージ
  • タイムコース解析: Bioconductor timecourse (Tai and Speed 2009)とmaSigPro (Conesa, Nueda et al. 2006)パッケージ
  • SNP Association study and linkage disequilibrium: Bioconductor snpMatrix (Clayton and Leung 2007)パッケージ
  • コピー数解析: Bioconductor snapCGH (Marioni, Thorne et al. 2006; Smith, Marioni et al. 2006)

リファレンス

Ashburner, M., C. A. Ball, et al. (2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium." Nat Genet 25(1): 25-9.

Boeckmann, B., A. Bairoch, et al. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003." Nucleic Acids Res 31(1): 365-70.

Carvalho, B., H. Bengtsson, et al. (2007). "Exploration, normalization, and genotype calls of high-density oligonucleotide SNP array data." Biostatistics 8(2): 485-99.

Clayton, D. and H. T. Leung (2007). "An R package for analysis of whole-genome association studies." Hum Hered 64(1): 45-51.

Conesa, A., M. J. Nueda, et al. (2006). "maSigPro: a method to identify significantly differential expression profiles in time-course microarray experiments." Bioinformatics 22(9): 1096-102.

Consortium, U. "The Universal Protein Resource (UniProt) in 2010." Nucleic Acids Res 38(Database issue): D142-8.

de Hoon, M. J., S. Imoto, et al. (2004). "Open source clustering software." Bioinformatics 20(9): 1453-4.

Du, P., W. A. Kibbe, et al. (2008). "lumi: a pipeline for processing Illumina microarray." Bioinformatics 24(13): 1547-8.

Gautier, L., L. Cope, et al. (2004). "affy--analysis of Affymetrix GeneChip data at the probe level." Bioinformatics 20(3): 307-15.

Gentleman, R. C., V. J. Carey, et al. (2004). "Bioconductor: open software development for computational biology and bioinformatics." Genome Biol 5(10): R80.

Hubbard, T. J., B. L. Aken, et al. (2009). "Ensembl 2009." Nucleic Acids Res 37(Database issue): D690-7.

Jain, N., J. Thatte, et al. (2003). "Local-pooled-error test for identifying differentially expressed genes with a small number of replicated microarrays." Bioinformatics 19(15): 1945-51.

Kanehisa, M. and S. Goto (2000). "KEGG: kyoto encyclopedia of genes and genomes." Nucleic Acids Res 28(1): 27-30.

Marioni, J. C., N. P. Thorne, et al. (2006). "BioHMM: a heterogeneous hidden Markov model for segmenting array CGH data." Bioinformatics 22(9): 1144-6.

Oosting, J., E. H. Lips, et al. (2007). "High-resolution copy number analysis of paraffin-embedded archival tissue using SNP BeadArrays." Genome Res 17(3): 368-76.

Sayers, E. W., T. Barrett, et al. "Database resources of the National Center for Biotechnology Information." Nucleic Acids Res38(Database issue): D5-16.

Smith, M. L., J. C. Marioni, et al. (2006). "snapCGH: Segmentation, Normalization and Processing of aCGH Data Users' Guide." Bioconductor.

Smyth, G. K. (2004). "Linear models and empirical bayes methods for assessing differential expression in microarray experiments." Stat Appl Genet Mol Biol 3: Article3.

Tai, Y. C. and T. P. Speed (2009). "On gene ranking using replicated microarray time course data." Biometrics 65(1): 40-51.

Tusher, V. G., R. Tibshirani, et al. (2001). "Significance analysis of microarrays applied to the ionizing radiation response." Proc Natl Acad Sci U S A 98(9): 5116-21.


Please contact Japan Bioinformatics KK for more information.