バイオインフォマティクス

バイオインフォマティクス（英語: bioinformatics）とは、生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico 解析)ことを目的とした学問分野である。そのためバイオインフォマティクスは広義には、生物学、コンピュータサイエンス、情報工学、数学、統計学といった様々な学問分野が組み合わさった学際分野自体を指す。日本語では生命情報科学や生物情報学、情報生命科学などと表記される。

ゲノミクス研究の初期においては、遺伝子予測等のゲノミクスに関する分野がバイオインフォマティクスの主要な対象であった。近年ではゲノムを超えて、ゲノムからの転写物の総体であるトランスクリプトームや、トランスクリプトーム（の一部）が翻訳されたタンパク質の総体であるプロテオーム、タンパク質の二次産物として合成される糖鎖の総体であるグライコーム、更にはゲノムからの直接的に転写・翻訳された実体だけではなく、代謝ネットワーク（代謝マップ）によって生じた代謝産物をも含めた総体を考えるメタボローム、生物個体の表現形の総体であるフェノームなど、バイオインフォマティクスが対象とする研究分野は生物学全体に拡大・発展しつつある。

概要

遺伝子やゲノム配列はバイオインフォマティクス分野で頻繁に利用される。コンピューターを使用することで、手動よりも簡単確実に管理できる。

バイオインフォマティクスの主な研究対象としては、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化モデリング、ドラッグデザイン、創薬、等の、様々なコンピュータープログラミングを使用した各種の生物学研究分野が挙げられる。また、特にゲノミクスの分野で繰り返し使用されるような特定の解析パイプラインを開発するといった、方法論の開発に関する研究も含まれる。バイオインフォマティクスを活用した研究の一例として、疾患の遺伝的根拠や生物の環境適応、（特に農業分野における）植物や動物の特性解析、個体群間の差異などをよりよく理解するための候補遺伝子や一塩基多型（SNP）の探索、などがある。さらに、プロテオミクスと呼ばれるタンパク質を対象としたデータをゲノム配列と組み合わせたバイオインフォマティクス研究も進められている^[1]。

今日、バイオインフォマティクスは、生物学の多くの分野で重要な役割を果たしている。例えば分子生物学研究では、画像処理や信号処理などのバイオインフォマティクス技術を利用して、大量の生データから有用な結果を抽出することが行われている。遺伝学の分野では、ゲノム配列や突然変異した配列の決定と注釈付け(アノテーション)に活用される。生物学的文献のテキストマイニングや、生物学的な遺伝子オントロジーの開発を通じて、膨大に蓄積された生物学的データを利用しやすい形で整理する役割も果たしている。また、遺伝子やタンパク質の発現調節の解析にも、深く関与している。バイオインフォマティクスツールは、遺伝子やゲノムのデータ比較と分析、解釈を支援し、分子生物学の進化的な理解にも貢献している。より統合的なレベルでは、個々の遺伝子やタンパク質の解析から一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体をシステムとして理解しようとする、システム生物学という分野も生まれている。バイオインフォマティクスは生物学的代謝経路とネットワークの分析やカタログ化に役立ち、システム生物学を支えている。構造生物学の分野においては、生体分子の相互作用だけでなく、DNA^[2]、RNA^[2]^[3]、タンパク質^[4] 等のシミュレーションとモデリングにも役立っている^[5]^[6]^[7]^[8]。

歴史

バイオインフォマティクスという用語は、Paulien HogewegとBen Hesperによって、1970年に生物システムの情報処理の研究に言及するために作られた用語である^[9]^[10]^[11]。この定義では、生化学（生物学的システムにおける化学プロセスの研究）と平行した研究分野の概念としてバイオインフォマティクスを位置づけており^[9]、今日使われているものとは意味が異なっている。

1950年代初頭にフレデリック・サンガーがインスリンの配列を最初に決定して以来、タンパク質のアミノ酸配列を研究で利用することが可能になった。しかしながら、複数のシーケンスを手動で比較することは(過去は実際に行われていたが)実用的ではなく、コンピューターを用いた解析が分子生物学にも必要不可欠になった。この分野の先駆者はマーガレット・オークリーデイホフ(Margaret Belle Oakley Dayhoff)である^[12]。彼女は最初に、書籍の出版物^[13] としてとして公開された最初のタンパク質配列データベースの1つを編集し、配列整列と分子進化の先駆的な方法を開発した^[14]。バイオインフォマティクスへのもう一つの初期の貢献は、1970年にエルウィン・A・カバット(Elvin A. Kabat) が抗体配列を包括的なボリュームで解析し、生物学的な配列解析の分野を開拓したことである。この一連の研究はTai Te Wuと共に1980年から1991年にかけて発表された^[15]。

バイオインフォマティクスの目標

生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。用いられる技術の例としては、パターン認識、データマイニング、機械学習アルゴリズム、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基およびアミノ酸配列の他、タンパク質ドメインやタンパク質構造が含まれる^[16]。

データを分析および解釈する実際のプロセスは、計算生物学と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な研究目標の一つに、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。例えば、ゲノム配列内から遺伝子領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーにクラスター化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。

配列解析

種内や種間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは系統樹を構築することで種間の分子系統学的関係を示すことができる。データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日ではBLASTなどの相同性検索を行うコンピュータプログラムを用いて、例えばGenBankに登録された1600億以上のヌクレオチドを含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)^[17]。これらのプログラムは、DNAシーケンスの変異（塩基の置換、欠失、挿入など）を補正して、類似するが同一ではない配列を検索できる。検索結果は、クローニングした遺伝子の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の二次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。

DNAシーケンサーからの出力データの解析

DNAシーケンサーから出力される生データには多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性がある。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。

アセンブリ

多くのDNAシーケンス技術は、短い配列フラグメントを生成する。そのため、完全な遺伝子や全ゲノム配列を取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。ヒトゲノム計画では、ある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。いわゆるショットガンシーケンステクニック（たとえば、Institute for Genomic Research （TIGR）による最初の細菌ゲノムHaemophilus influenzaeのゲノム決定でも使用された^[18]）は、ゲノム配列をバラバラな短い断片に分断してそれぞれを解読し（シーケンシング技術に応じて、35〜900ヌクレオチド長）、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる(配列アセンブリング)。しかしながら、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度のゲノムの場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。

アノテーション

ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため、手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。

包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって、1995年に初めて報告された^[18]。Owen Whiteは、タンパク質をコードするすべての遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した^[18]。現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。

ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、アメリカ国立衛生研究所内の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。

計算進化生物学

進化生物学とは、種の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。より複雑な課題としては、生命の木を再構築する研究も進められている。

形態に基づく物理的な分類法や生理学的・生態学的観察のみではなく、ゲノム配列の変化を測定することにより、遺伝学的なアプローチから生物の進化を追跡することができる。
ゲノム全体を比較解析が可能となる。これにより例えば、遺伝子の重複や遺伝子の水平伝達、細菌の種分化に重要な因子の予測など、より複雑な進化的事象の研究が可能になる。
複雑な計算集団遺伝学モデルを構築して、経時的なシステムの結果をシミュレーション予測する研究も進められている^[19]。
従来よりもより多数の生物種や系統において、進化学に関する情報を得ることができ、その結果を研究者間で広く共有することができる。

比較ゲノム解析

比較ゲノム解析の目的の一つは、異なる生物における遺伝子(オルソログ遺伝子）や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある^[20]。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして細胞内共生過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確なヒューリスティックやパラメーター固定、節約モデルに基づく問題の近似アルゴリズムや、確率モデルに基づくベイズ分析のためのマルコフチェーンモンテカルロアルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。これらの研究の多くにおいては、事前に遺伝子配列を配列相同性に基づいてタンパク質ファミリーに割り当てている^[21]。

メタゲノム解析

環境中には多様で大量の原核微生物系統が生息しており、その生理生態を理解することは、地球上の物質循環やその環境における生態系を理解する上で重要である。そのためには、どのような生理学的機能を持つ微生物が、どのような割合でそこに存在するのか、を理解することが必要である。メタゲノム解析は、環境中に存在する細菌叢サンプルからゲノム DNAを直接回収し、主にショットガンシーケンスを行ってバイオインフォマティクス解析を行うことで、それらに関して解析する、微生物学・ウイルス学の研究分野である^[22]。

パンゲノム解析

パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる^[23]。

遺伝的疾患

次世代シーケンシングの登場により、不妊症^[24] や乳がん^[25]、アルツハイマー病といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている^[26]。ゲノムワイド関連研究（GWAS）は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである^[27]。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている^[28]。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている^[29]。

癌細胞の変異解析

悪性腫瘍(癌)においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな遺伝子上の点突然変異の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果をヒトゲノム配列や生殖系列多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を比較するオリゴヌクレオチドマイクロアレイ（比較ゲノムハイブリダイゼーション）や、既知の点変異を検出する一塩基多型アレイなど、新しい物理的検出技術が採用されています。これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数テラバイトものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性またはノイズが含まれているため、実際のコピー数の変化を推測するために、隠れマルコフモデルに基づく変化点分析法が開発されている。また、エクソソームの突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている^[30]。

シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている^[31]。

遺伝子とタンパク質の発現

遺伝子発現解析

多くの場合、遺伝子の発現はマイクロアレイ、発現cDNAシーケンスタグ（expressed cDNA sequence tag; EST）シーケンス、遺伝子発現連続分析（serial analysis of gene expression; SAGE）タグシーケンス、超並列シグネチャシーケンス（massively parallel signature sequencing; MPSS）、RNA-Seq（またはWhole Transcriptome Shotgun Sequencing; WTSS）、マルチプレックスin-situハイブリダイゼーション、などの手法でmRNAレベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのようなノイズを除去して信頼できる信号を分離する統計ツールの開発が計算生物学の研究分野で重要になっている^[32]。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性上皮細胞のマイクロアレイデータを非癌性細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。

タンパク質発現解析

タンパク質マイクロアレイとハイスループット（HT）質量分析（mass spectrometry; MS）は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、不完全なペプチドを除くための複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、免疫染色や組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる^[33]。

転写調節解析

遺伝子転写調節は、ホルモンなどを含む細胞内外のシグナルによって、1つ以上のタンパク質の活性の増加・減少が駆動される、複雑な調節システムである。このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現はプロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れたエンハンサー要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、染色体コンフォメーションキャプチャ(Hi-C)法による実験と得られたデータのバイオインフォマティクス解析から決定される。

また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られたマイクロアレイデータを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、細胞周期の段階におけるストレス条件（熱ショック、飢餓など）を比較できる。あるいはクラスタリングアルゴリズムを発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域（プロモーター）を探索することで、過剰発現を引き起こす調節要素を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、k平均クラスタリング、自己組織化マップ（SOM）、階層的クラスタリング、コンセンサスクラスタリング、などの手法がある。

細胞組織の解析

細胞内のオルガネラや遺伝子、タンパク質、およびその他のコンポーネントの位置を分析するために、様々なアプローチが開発されている。これらのコンポーネントの位置は細胞内のイベントに影響を与えるため、その分布や局在を調べることは生物系の挙動を予測するのに役立つ。

オルガネライメージング

顕微鏡写真から、オルガネラや分子を検出することができる。

タンパク質の局在

タンパク質の局在化は、そのタンパク質の役割を評価するのに役立つ。たとえば、タンパク質が核で見つかった場合、それは遺伝子調節やスプライシングに関与している可能性がある。対照的に、タンパク質がミトコンドリアで見つかった場合、それは呼吸や他の代謝プロセスに関与している可能性がある。したがって、タンパク質の局在化は、タンパク質機能を予測する上で重要な情報源となる。タンパク質の細胞内位置に関するデータベースや予測ツールといったリソースが構築されている^[34]^[35]。

染色体における核酸立体構造

Hi-CやChIA-PETなどのハイスループット染色体コンフォメーションキャプチャー実験からのデータは、DNA遺伝子座の空間的近接性、すなわち核内で安定的に構造化されている立体的な折りたたみ構造によって、ゲノム配列上のどことどこの領域が近接して存在しているのか、に関する情報を提供する。そのためこれらの実験の分析から、クロマチンの三次元構造を決定することができると考えられる。ゲノムを3次元空間でまとめて構成されたトポロジカル関連ドメイン（TAD）といったドメイン分割に関する研究が、この分野のバイオインフォマティクスの課題となっている^[36]。

構造生物学

3次元タンパク質構造の例。タンパク質立体構造の解析は、バイオインフォマティクス分析の一般的なテーマの一つである。

タンパク質のアミノ酸配列からその高次(2次、3次、及び4次)構造を予測することは、バイオインフォマティクスの大きな課題の一つである。タンパク質のアミノ酸配列(一次構造)は、それをコードする遺伝子の配列情報から、比較的簡単に決定できる。そして多くの場合、この1次構造は実際の細胞内における高次構造を一意に決定する。つまり、同じアミノ酸配列を持つタンパク質はずべて同じように細胞内でコンフォメーションをとて折りたたまれ、同じ2次構造や3次構造を立体構造を作り出す、ということである（ただし例外としては、牛海綿状脳症（狂牛病）を引き起こすプリオンなどがある）。高次構造の知識は、タンパク質の機能を理解する上で不可欠である。

バイオインフォマティクスの重要なアイデアの1つは、「配列類似性」の概念である。バイオインフォマティクスのゲノム解析では、配列の類似性を利用して、その遺伝子の機能を予測する。具体的には、例えば機能がわかっている遺伝子Aの配列が、機能が不明な遺伝子Bの配列とある程度類似している場合、BがAの機能を共有することが予想される。バイオインフォマティクスの構造分野では、この配列類似性を使用して、タンパク質のどの部分が構造を作り、どの部分が他のタンパク質との相互作用に重要であるか、等を推測する。ホモロジーモデリングと呼ばれる手法では、配列的に類似なタンパク質の構造がわかっていれば、その情報を使用して任意のタンパク質の高次構造を予測する。この手法は、タンパク質構造を予測する有用な手法の一つである。この手法が効果的な例の一つは、ヒトのヘモグロビンと豆類のヘモグロビン（レグヘモグロビン）である。これらは同じタンパク質スーパーファミリーではあるが、遠い親戚関係のタンパク質である。どちらも生体内で酸素を輸送するという同じ目的を果たし、両者で完全に異なるアミノ酸配列を持っているが、構造的には実質的に同一であるため、ほぼ同一の目的を持り、かつ同一の祖先を共有していると考えられている^[37]。

ネットワークとシステムバイオロジー

タンパク質間の相互作用は、ネットワークによる解析と視覚化が行われる場合が多い。このネットワークは、梅毒やその他の疾患の原因物質であるトレポネーマパリダムからのタンパク質間相互作用で構成されている。

ネットワーク分析

ネットワーク分析は、代謝ネットワークやタンパク質間相互作用ネットワークなどの生物学的ネットワークの関係を理解することを目的としている。生物学的ネットワークは単一のタイプの分子またはエンティティ（遺伝子など）から構築される。

システム生物学

システム生物学では、細胞内における複雑なプロセスの関係性を分析し視覚化するために、代謝プロセスを担う代謝産物や酵素のネットワークやシグナル伝達経路、遺伝子調節ネットワークといった細胞システムをコンピューターシミュレーションを用いて解析する研究が進められている。

分子相互作用ネットワーク

2020年現在、数万を超えるタンパク質について、X線結晶学およびタンパク質核磁気共鳴分光法（タンパク質NMR）によって3次元構造が決定されている。

テキスト解析

計算言語学による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。

画像・動画解析

大量の情報量の多い生物医学画像の処理や定量化、分析を加速または完全に自動化するために計算技術を利用する研究も進められている。画像解析システムにおいては、大規模で複雑な画像セットから測定を行うための精度や客観性、そして処理速度の向上が重要になってくる。理想的には、分析システムの発達により、様々なケースにおいて人が画像や動画の判断をする必要がなくなる。このような画像処理システム自体は生物医学分野に固有のものではないが、例えば疾患の診断や研究においてはそれらの分野に特化した画像解析技術が重要になる。具体的な応用分野としては、以下のものが挙げられる。

ハイスループットで高精度な細胞内局在の定量化（ハイコンテンツスクリーニング、細胞組織病理学、バイオイメージ情報学）
形態計測学
臨床画像の分析と視覚化
生きている動物が呼吸する際、肺のリアルタイムの気流パターンを決定する
実験動物の拡張ビデオ録画から行動観察を行う
代謝活性測定のための赤外線測定
DNAマッピングにおけるクローンの重複の推測（たとえばSulstonスコア）

バイオインフォマティクスとコンピュータ

プログラミング言語

研究用プログラムの開発に使われる言語としては他に以下のようなものがあげられる。これらの殆どにそれぞれバイオインフォマティクス用のライブラリが開発されている。

C++ - C言語を元に新しいプログラミングパラダイムを取り入れて開発された言語。
Java - オブジェクト指向および仮想マシンという概念を取り入れた言語である。BioJava というパッケージが存在する。
Perl - 汎用インタプリタ言語である。BioPerl というパッケージが存在する。
Python - 汎用インタプリタ言語である。BioPython というパッケージが存在する。
Ruby - Javaと同じくオブジェクト指向プログラミング言語である。BioRuby というパッケージが存在する。
R言語 - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れたフリーソフトウェア。FDA公認。CRANシステムで日々機能強化され、Bioconductor ネットワークにパッケージが集約されている。

データベース

データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの片方または両方が含まれる。データベースはしばしば、特定の生物や代謝経路、目的分子に特化して構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。バイオインフォマティクスで扱うデータは、一次元の文字列（シーケンス全般）から、三次元構造のマトリクス (PDB)、計算機科学におけるグラフ（ネットワークデータ全般）、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) といった非常に多岐にわたるデータ構造を持つ。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる（カッコ内は具体例）：

配列データベース（DDBJ, EMBL, GenBank [1], Swiss-Prot [2]）
立体構造データベース（PDB [3]）
パスウェイ・ネットワークデータベース（KEGG [4], BIND）
マイクロアレイデータベース (ArrayExpress, GEO)
文献データベース（MEDLINE/PubMed [5]）
オントロジーデータベース（遺伝子オントロジー）

ソフトウェア

バイオインフォマティクス用のソフトウェアツール（英語版：Software tools for bioinformatics）は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡り、非常に多くのバイオインフォマティクスソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる場合が多いが、有償のものもある。データベースを基盤とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。

オープンソースのバイオインフォマティクスソフトウェア

1980年代にバイオインフォマティクスが盛り上がって以来、多くのフリーでオープンソースのソフトウェアツールが開発され公開されている^[38]。新しいタイプの生物学的な成果を生み出すためには、新しいアルゴリズムを開発することが必要になることも多い。一方で、革新的なin silico実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できるオープンコードで無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する文化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、事実上の標準化や共有オブジェクトモデルを提供することもある。

オープンソース・ソフトウェア・パッケージには、Bioconductor、BioPerl、Biopython、BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、Orange、Apache Taverna、UGENE、GenoCAD、などのソフトウェア類が挙げられる。また、この伝統を維持し、さらなる機会を創出するために、非営利のOpen Bioinformatics Foundation^[38] は、2000年以来毎年開催されるBioinformatics Open Source Conference（BOSC）を支援してきている^[39]。

パブリックなバイオインフォマティクスデータベースを構築する方法としては、WikiOpener拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる^[40]。

バイオインフォマティクスのWebサービス

SOAPおよびRESTベースのインターフェースが、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。

基本的なバイオインフォマティクスサービスは、EBIによる3つのカテゴリに分類できる。シーケンス検索サービス(SSS)、シーケンスアライメント(MSA)、生物学的シーケンス分析(BSA）である^[41]。これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性の広さを示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム(bioinformatics workflow management systems)まで、幅広く存在する。

バイオインフォマティクスワークフロー管理システム

バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションにおける一連の計算やデータ操作のステップ、つまりワークフローを構成し実行するために設計された、ワークフロー管理システムの特殊な形式である。下記の様な特徴があり、例としてはGalaxy、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。

個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
科学者間のワークフローの共有と再利用のプロセスを簡素化する
科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。

BioCompute

2014年に米国食品医薬品局は、バイオインフォマティクスの再現性について議論する会議を主催し、国立衛生研究所のベセスダキャンパスで開催された^[42]。それから3年間に渡り、政府、業界、および学術団体の代表によるコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた^[43]。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、Human Variome ProjectやEuropean Medical Federation for Medical Informaticsなどの非営利団体、Stanford、New York Genome Center、George Washington Universityなどの研究機関の代表であった。

この会議によりBioComputeは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」形式のパラダイムを決定した。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されていた。

2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例であるBioComputeオブジェクトの可能性について議論をすすめた。この成果は、'standard trial use'ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる^[44]^[45]。

教育プラットフォーム

バイオインフォマティクスの概念と方法を教育するために、様々なプラットフォームが設計されている。たとえば、スイスのバイオインフォマティクス研究所トレーニングポータルを通じて提供される ROSALIND のオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、クリエイティブ・コモンズライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクトまたは4273piプロジェクト^[46] も、オープンソースの教育資料を無料で提供している。このコースは低コストのRaspberry Piコンピュータを利用し、大人や学校の生徒を教えるために使用されている^[47]^[48]。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている^[49]^[50]。

学会・国際会議

バイオインフォマティクス分野の国内学会および国際学会として、日本バイオインフォマティクス学会およびInternational Society for Computational Biologyがある。

また国際会議として、Intelligent Systems for Molecular Biology (ISMB)、European Conference on Computational Biology (ECCB)、Research in Computational Molecular Biology (RECOMB)、International Conference on Genome Informatics (GIW)などがある。

学習参考書

A.ポランスキ, 後藤修 (訳):「バイオインフォマティクス」、丸善出版、ISBN 978-4621062517、（2012年7月17日）。

脚注

[脚注の使い方]

出典

^ Lesk (2013年7月26日). “Bioinformatics”. Encyclopaedia Britannica. 2017年4月17日閲覧。
^ ^a ^b Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). “Modeling nucleic acids”. Current Opinion in Structural Biology 22 (3): 273-78. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125.
^ Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). “Coarse-grained modeling of RNA 3D structure”. Methods 103: 138-56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734.
^ Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898-936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362.
^ Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975
^ Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). “Structure-based modeling of protein: DNA specificity”. Briefings in Functional Genomics 14 (1): 39-49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269.
^ Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). “New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly”. In Karabencheva-Christova, T.. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77-111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955
^ Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). “Protein-peptide docking: opportunities and challenges” (英語). Drug Discovery Today 23 (8): 1530-37. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895.
^ ^a ^b Hogeweg P (2011). “The Roots of Bioinformatics in Theoretical Biology”. PLOS Computational Biology 7 (3): e1002021. Bibcode: 2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479.
^ Bioinformatica: een werkconcept. 1. Kameleon. (1970). pp. 28-29.
^ Hogeweg P (1978). “Simulating the growth of cellular forms”. Simulation 31 (3): 90-96. doi:10.1177/003754977803100305.
^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2
^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
^ “Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363-366. (1966). Bibcode: 1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169.
^ “Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214-218. (January 2000). doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229.
^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4
^ “GenBank”. Nucleic Acids Res. 36 (Database issue): D25-30. (January 2008). doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.
^ ^a ^b ^c “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496-512. (July 1995). Bibcode: 1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.
^ Carvajal-Rodriguez A (2012). “Simulation of Genes and Genomes Forward in Time”. Current Genomics 11 (1): 58-61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525.
^ Brown, TA (2002). “Mutation, Repair and Recombination”. Genomes (2nd ed.). Manchester (UK): Oxford
^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). “Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Cytometry Part A 49 (2): 43-48. doi:10.1002/cyto.10153. PMID 12357458.
^ Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). “Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond” (英語). Microbes and environments 31 (3): 204-212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC 5017796. PMID 27383682. https://doi.org/10.1264/jsme2.ME16024.
^ Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). “BPGA-an ultra-fast pan-genome analysis pipeline”. Scientific Reports 6: 24373. Bibcode: 2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527.
^ Aston KI (2014). “Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315-21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159.
^ “Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287-96. (2014). doi:10.2217/bmm.13.121. PMID 24521025.
^ “Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. (2013). doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969.
^ Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Methods in Molecular Biology. 1015. (2013). 127-46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853
^ Hindorff, L.A. (2009). “Potential etiologic and functional implications of genome-wide association loci for human diseases and traits”. Proc. Natl. Acad. Sci. USA 106 (23): 9362-9367. Bibcode: 2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294.
^ Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. 1-2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2
^ Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). “Chapter 14: Cancer Genome Analysis” (英語). PLOS Computational Biology 8 (12): e1002824. Bibcode: 2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415.
^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). “Second-Generation Sequencing for Cancer Genome Analysis”. In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. pp. 13-30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675
^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). “VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees”. Nucleic Acids Research 34 (Web Server): W529-W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064.
^ “The Human Protein Atlas”. www.proteinatlas.org. 2017年10月2日閲覧。
^ “The human cell”. www.proteinatlas.org. 2017年10月2日閲覧。
^ Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna et al. (2017-05-26). “A subcellular map of the human proteome”. Science 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876.
^ Ay, Ferhat; Noble, William S. (2 September 2015). “Analysis methods for studying the 3D architecture of the genome”. Genome Biology 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929.
^ Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). “Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport”. Journal of Molecular Biology 371 (1): 168-79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601.
^ ^a ^b “Open Bioinformatics Foundation: About us”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
^ “Open Bioinformatics Foundation: BOSC”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
^ Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). “Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases”. Bioinformatics 26 (17): 2210-2211. doi:10.1093/bioinformatics/btq348. PMID 20591906 2015年5月5日閲覧。.
^ Nisbet, Robert (2009). “Bioinformatics”. Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 978-0080912035 2014年5月9日閲覧。
^ Commissioner. “Advancing Regulatory Science - Sept. 24-25, 2014 Public Workshop: Next Generation Sequencing Standards” (英語). www.fda.gov. 2017年11月30日閲覧。
^ Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). “Biocompute Objects ? A Step towards Evaluation and Validation of Biomedical Scientific Computations”. PDA Journal of Pharmaceutical Science and Technology 71 (2): 136-46. doi:10.5731/pdajpst.2016.006734. ISSN 1079-7440. PMC 5510742. PMID 27974626.
^ Alterovitz, Gil; Dean, Dennis; Goble, Carole; Crusoe, Michael R.; Soiland-Reyes, Stian; Bell, Amanda; Hayes, Anais; Suresh, Anita et al. (2017-09-21) (英語). Enabling Precision Medicine via standard communication of HTS provenance, analysis, and results. doi:10.1101/191783.
^ BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, (2017-09-03) 2017年11月30日閲覧。
^ Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). “4273π : bioinformatics education on low cost ARM hardware”. BMC Bioinformatics 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194.
^ Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). “University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school”. International Journal of STEM Education 2 (17). doi:10.1186/s40594-015-0030-z.
^ McDonagh, J.L; Barker, D; Alderson, R.G. (2016). “Bringing computational science to the public”. SpringerPlus 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868.
^ Robson, J.F.; Barker, D (2015). “Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer”. BMC Research Notes 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790.
^ Wregglesworth, K.M; Barker, D (2015). “A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1”. BMC Research Notes 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441.

外部リンク

日本の関連学会

外部リンク

ゲノムネット
DDBJ 日本DNAデータバンク
PDBj 日本蛋白質構造データバンク
バイオサイエンスデータベースセンター（NBDC；National Bioscience Database Center）
文部科学省開発研究事業「統合データベースプロジェクト」のポータルサイト
統合TV
bioinformatics
Workshop Data Structures in Bioinformatics
- DSB 2020
- DSB 2021
- DSB 2022
- DSB 2023

[1] Lesk (2013年7月26日). “Bioinformatics”. Encyclopaedia Britannica. 2017年4月17日閲覧。

[:0-2] Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). “Modeling nucleic acids”. Current Opinion in Structural Biology 22 (3): 273-78. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125.

[3] Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). “Coarse-grained modeling of RNA 3D structure”. Methods 103: 138-56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734.

[4] Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898-936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362.

[5] Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975

[6] Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). “Structure-based modeling of protein: DNA specificity”. Briefings in Functional Genomics 14 (1): 39-49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269.

[7] Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). “New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly”. In Karabencheva-Christova, T.. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77-111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955

[8] Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). “Protein-peptide docking: opportunities and challenges” (英語). Drug Discovery Today 23 (8): 1530-37. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895.

[Hogeweg2011-9] Hogeweg P (2011). “The Roots of Bioinformatics in Theoretical Biology”. PLOS Computational Biology 7 (3): e1002021. Bibcode: 2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479.

[10] Bioinformatica: een werkconcept. 1. Kameleon. (1970). pp. 28-29.

[11] Hogeweg P (1978). “Simulating the growth of cellular forms”. Simulation 31 (3): 90-96. doi:10.1177/003754977803100305.

[12] Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2

[13] Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.

[pmid17775169-14] “Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363-366. (1966). Bibcode: 1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169.

[15] “Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214-218. (January 2000). doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229.

[16] Xiong, Jin (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4

[pmid18073190-17] “GenBank”. Nucleic Acids Res. 36 (Database issue): D25-30. (January 2008). doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.

[pmid75428002-18] “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496-512. (July 1995). Bibcode: 1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.

[19] Carvajal-Rodriguez A (2012). “Simulation of Genes and Genomes Forward in Time”. Current Genomics 11 (1): 58-61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525.

[20] Brown, TA (2002). “Mutation, Repair and Recombination”. Genomes (2nd ed.). Manchester (UK): Oxford

[21] Carter, N. P.; Fiegler, H.; Piper, J. (2002). “Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Cytometry Part A 49 (2): 43-48. doi:10.1002/cyto.10153. PMID 12357458.

[22] Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). “Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond” (英語). Microbes and environments 31 (3): 204-212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC 5017796. PMID 27383682. https://doi.org/10.1264/jsme2.ME16024.

[23] Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). “BPGA-an ultra-fast pan-genome analysis pipeline”. Scientific Reports 6: 24373. Bibcode: 2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527.

[Demerec1945-24] Aston KI (2014). “Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315-21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159.

[Véron2013-25] “Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287-96. (2014). doi:10.2217/bmm.13.121. PMID 24521025.

[Tosto2013-26] “Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. (2013). doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969.

[Londin2013-27] Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Methods in Molecular Biology. 1015. (2013). 127-46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853

[28] Hindorff, L.A. (2009). “Potential etiologic and functional implications of genome-wide association loci for human diseases and traits”. Proc. Natl. Acad. Sci. USA 106 (23): 9362-9367. Bibcode: 2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294.

[29] Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. 1-2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2

[30] Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). “Chapter 14: Cancer Genome Analysis” (英語). PLOS Computational Biology 8 (12): e1002824. Bibcode: 2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415.

[31] Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). “Second-Generation Sequencing for Cancer Genome Analysis”. In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. pp. 13-30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675

[32] Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). “VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees”. Nucleic Acids Research 34 (Web Server): W529-W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064.

[33] “The Human Protein Atlas”. www.proteinatlas.org. 2017年10月2日閲覧。

[34] “The human cell”. www.proteinatlas.org. 2017年10月2日閲覧。

[35] Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna et al. (2017-05-26). “A subcellular map of the human proteome”. Science 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876.

[36] Ay, Ferhat; Noble, William S. (2 September 2015). “Analysis methods for studying the 3D architecture of the genome”. Genome Biology 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929.

[37] Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). “Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport”. Journal of Molecular Biology 371 (1): 168-79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601.

[obf-main2-38] “Open Bioinformatics Foundation: About us”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。

[obf-bosc-39] “Open Bioinformatics Foundation: BOSC”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。

[40] Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). “Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases”. Bioinformatics 26 (17): 2210-2211. doi:10.1093/bioinformatics/btq348. PMID 20591906 2015年5月5日閲覧。.

[41] Nisbet, Robert (2009). “Bioinformatics”. Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 978-0080912035 2014年5月9日閲覧。

[42] Commissioner. “Advancing Regulatory Science - Sept. 24-25, 2014 Public Workshop: Next Generation Sequencing Standards” (英語). www.fda.gov. 2017年11月30日閲覧。

[43] Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). “Biocompute Objects ? A Step towards Evaluation and Validation of Biomedical Scientific Computations”. PDA Journal of Pharmaceutical Science and Technology 71 (2): 136-46. doi:10.5731/pdajpst.2016.006734. ISSN 1079-7440. PMC 5510742. PMID 27974626.

[44] Alterovitz, Gil; Dean, Dennis; Goble, Carole; Crusoe, Michael R.; Soiland-Reyes, Stian; Bell, Amanda; Hayes, Anais; Suresh, Anita et al. (2017-09-21) (英語). Enabling Precision Medicine via standard communication of HTS provenance, analysis, and results. doi:10.1101/191783.

[45] BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, (2017-09-03) 2017年11月30日閲覧。

[46] Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). “4273π : bioinformatics education on low cost ARM hardware”. BMC Bioinformatics 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194.

[47] Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). “University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school”. International Journal of STEM Education 2 (17). doi:10.1186/s40594-015-0030-z.

[48] McDonagh, J.L; Barker, D; Alderson, R.G. (2016). “Bringing computational science to the public”. SpringerPlus 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868.

[49] Robson, J.F.; Barker, D (2015). “Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer”. BMC Research Notes 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790.

[50] Wregglesworth, K.M; Barker, D (2015). “A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1”. BMC Research Notes 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

バイオインフォマティクス

概要

歴史

バイオインフォマティクスの目標

関連分野との関係性

配列解析

DNAシーケンサーからの出力データの解析

アセンブリ

アノテーション

計算進化生物学

比較ゲノム解析

メタゲノム解析

パンゲノム解析

遺伝的疾患

癌細胞の変異解析

遺伝子とタンパク質の発現

遺伝子発現解析

タンパク質発現解析

転写調節解析

細胞組織の解析

オルガネライメージング

タンパク質の局在

染色体における核酸立体構造

構造生物学

ネットワークとシステムバイオロジー

ネットワーク分析

システム生物学

分子相互作用ネットワーク

テキスト解析

画像・動画解析

バイオインフォマティクスとコンピュータ

プログラミング言語

データベース

ソフトウェア

オープンソースのバイオインフォマティクスソフトウェア

バイオインフォマティクスのWebサービス

バイオインフォマティクスワークフロー管理システム

BioCompute

教育プラットフォーム

学会・国際会議

学習参考書

脚注

出典

関連項目

外部リンク

日本の関連学会

外部リンク