コンセンサス配列

分子生物学バイオインフォマティクスにおいて、コンセンサス配列 (consensus sequence) もしくはカノニカル配列 (canonical sequence) とは、シーケンスアラインメントの各位置における最も高頻度の残基(ヌクレオチドアミノ酸など)が計算された配列である。関連のある配列が比較され、類似の配列モチーフについて多重配列アラインメントがなされた結果を表している。このような情報は、RNAポリメラーゼのような配列依存性の酵素について考慮する場合に重要である[1]

生物学的重要性編集

コンセンサス配列で表されるタンパク質結合部位は、ゲノム中に何度か現れるヌクレオチドの短い配列であり、異なる位置であっても同じ役割を果たすと考えられている。例えば多くの転写因子は、調節する遺伝子プロモーター領域の中の特定のパターンを認識する。同様に、制限酵素は多くの場合、パリンドロミックなコンセンサス配列を持ち、その部位のDNAを切断する。トランスポゾンは、転位のための標的配列の同定においてほとんど同じように振る舞う。そして、スプライシング部位(エクソンイントロンの境界の直前直後の配列)についてもコンセンサス配列と考えることができる。

このように、コンセンサス配列は、推定されるDNA結合部位のモデルである。特定の認識部位について既知の例をすべてアラインメントすることによって得られる、各位置において優勢な塩基が表された、理想化された配列として定義される。すべての実例が、いくつかの置換という以上にコンセンサスから異なっていてはならないが、ミスマッチの数を数えるという方法はコンセンサス配列を計算する際に必ずしも適切であるとは言えない[2]

コアプロモーター配列において、コンセンサス配列に近くなるようなヌクレオチドの変異は up mutation として知られる。一般的にこの種の変異はプロモーターを強化し、RNAポリメラーゼは転写しようとするDNAとより強い結合を形成するために、転写が上昇する。反対に、コンセンサス配列において保存されているヌクレオチドを破壊する変異は down mutation として知られる。この種の変異は、もはやRNAポリメラーゼがコアプロモーター配列に強固に結合できなくなるため、転写は低下する。

配列解析編集

パターン認識のためのソフトウェア開発は、遺伝学分子生物学、そしてバイオインフォマティクスにおいて主要なトピックである。特定の配列モチーフは、生合成をコントロールする制御配列として、もしくは細胞内の特定の位置に分子を差し向けたり、分子の成熟を調節するようなシグナル配列として機能する。これらの配列の制御機能は重要であるため、進化の長い過程にわたって保存されていると考えられている。いくつかの場合においては、進化的な関連性がこれらの部位の保存性の程度から推定される。

表記法編集

保存された配列モチーフはコンセンサス配列と呼ばれ、どの残基が保存され、どの残基が変化しやすいものであるかを示している。次のようなDNA配列の例について考えてみよう。

A[CT]N{A}YR

この表記では、左端の A は常にこの位置に A が見つかることを意味している。[CT] はこの位置に C または T が見つかること、N はこの位置にすべての塩基が入りうること、{A} は A 以外の塩基、Yピリミジン塩基 (pYrimidine)、Rプリン塩基 (puRine) をそれぞれ意味している。

 
シーケンスロゴで表されたLexAタンパク質のDNA結合モチーフ

この例での [CT] という表記にはその位置における C と T の相対的頻度について何の情報も示されていない。コンセンサス配列を表現する別の方法として、シーケンスロゴ英語版が用いられる。シーケンスロゴはコンセンサス配列の画像的な表現であり、特定の位置におけるヌクレオチド(もしくはアミノ酸)の頻度がそのシンボルのサイズによって表現される。より多く保存されている残基は、より大きなシンボルで描かれ、頻度の低いものは小さなシンボルで描かれる。シーケンスロゴは WebLogoGestalt Workbench を用いることで生成することができる[2]

ソフトウェア編集

バイオインフォマティクスのツールでコンセンサス配列を計算し視覚化することができる。JalView や UGENE などのツールがある。

出典編集

  1. ^ Pierce, Benjamin A. 2002. Genetics : A Conceptual Approach. 1st ed. New York: W.H. Freeman and Co.
  2. ^ a b Schneider TD (2002). “Consensus Sequence Zen”. Appl Bioinform 1 (3): 111–119. PMC: 1852464. PMID 15130839. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1852464/. 

関連項目編集