タンパク質立体構造分類データベース

タンパク質立体構造分類データベース(タンパクしつりったいこうぞうデータベース、: Structural Classification of Proteins (SCOP) database)は、タンパク質の構造ドメインを、その構造アミノ酸配列の類似性に基づいて、主に手作業で分類したものである。この分類の動機は、タンパク質間の進化的関係を決定することである。同じ形状をしていても、配列や機能の類似性がほとんどないタンパク質は、異なるスーパーファミリーに分類され、非常に遠い共通の祖先を持っていると想定される。同じ形状で、配列や機能がある程度類似しているタンパク質は「ファミリー」に分類され、より近い共通の祖先を持っていると見なされる。

SCOP
内容
説明 タンパク質構造分類
コンタクト
研究拠点 MRC分子生物学研究所
作者 Alexey G. Murzin, Steven E. Brenner, Tim J. P. Hubbard, and Cyrus Chothia
主要引用 PMID 7723011
公開日 1994
アクセス
ウェブサイト http://scop.mrc-lmb.cam.ac.uk/scop/
ツール
その他
バージョン 1.75 (June 2009; 110,800 domains in 38,221 structures classed as 3,902 families)[1]
キュレーション
ポリシー
手作業
テンプレートを表示
SCOPe
内容
説明 SCOP拡張 (SCOP - extended)
コンタクト
作者 Naomi K. Fox, Steven E. Brenner, and John-Marc Chandonia
主要引用 PMID 24304899
アクセス
ウェブサイト https://scop.berkeley.edu
ツール
その他
バージョン 2.07 (March 2018; 276,231 domains in 87,224 structures classed as 4,919 families)[2]
キュレーション
ポリシー
手作業 (新規分類) と自動 (新規構造, BLAST)
テンプレートを表示

CATHデータベースやPfamデータベースと同様に、SCOPはタンパク質の個々の構造ドメインを分類するものであり、かなりの数の異なるドメインを含む可能性のあるタンパク質全体を分類するものではない。

SCOPデータベースは、インターネット上で自由にアクセスできる。SCOPは、1994年にイギリスのケンブリッジにあるタンパク質工学センター英語版MRC分子生物学研究所で作成された[3]。これは、2010年に閉鎖されるまではタンパク質工学センターのAlexey G. Murzin氏と彼の同僚によって維持され、その後は分子生物学研究所に引き継がれた[4][5][6][1]

SCOPバージョン1.75の作業は、2014年に終了した。それ以降、カリフォルニア大学バークレー校のSCOPeチームは、自動化された方法と手動の方法を組み合わせて、互換性のある方法でデータベースを更新する責任を持っている。2019年4月時点で、最新リリースはSCOPe 2.07(2018年3月)である[2]

2020年初頭、新たなデータベース「Structural Classification of Proteins version 2(SCOP2)」がリリースされた。新しいアップデートの特徴は、データベーススキーマの改善、新しいAPIの導入、最新のウェブインターフェイスである。これは、SCOPバージョン1.75以降のケンブリッジグループによる最も重要な更新であり、SCOP2プロトタイプからのスキーマの進歩に基づいている[7]

階層的な組織化

編集

・注意:この記述は(SCOP2でなく)SCOPバージョン1.75[8]に基づく。

タンパク質構造の情報源は、蛋白質構造データバンク(PDB)である。SCOPの構造分類の単位はタンパク質ドメインである。SCOPの著者が言う「ドメイン」とは、小規模のタンパク質と中規模のタンパク質のほとんどが1つのドメインしか持たないという彼らの記載や[9]、α2β2構造を持つヒトのヘモグロビンにはαサブユニットとβサブユニットの2つのSCOPドメインが割り当てられているという観察所見によって示唆される[10]

ドメインの形状をSCOPでは「フォールド」と呼んでいる。同じフォールドに属するドメインは、同じ配置の同じ主要二次構造と、同じトポロジー接続を持っている。SCOPバージョン1.75では、1,195件のフォールドが与えられている。各フォールドの簡単な説明が記載されている。たとえば、「グロビン様」フォールドは、『コア: 6ヘリックス; 折りたたまれた葉、部分的に開いている』(core: 6 helices; folded leaf, partly opened)と説明されている。ドメインが属するフォールドは、ソフトウェアではなく、精査によって決定される。

SCOPバージョン1.75のレベルは次のとおりである。

  1. クラス英語版: フォールドの種類(例:βシート)
  2. フォールド: クラス内のドメインのさまざまな形状の違い。
  3. スーパーファミリー: フォールド内のドメインは、少なくとも離れた共通の祖先を持つスーパーファミリーに分類される。
  4. ファミリー: スーパーファミリーのドメインは、より最近の共通の祖先を持つファミリーに分類される。
  5. タンパク質ドメイン: ファミリー内のドメインは、本質的に同じタンパク質であるタンパク質ドメインに分類される。
  6. 種(species): タンパク質ドメインのドメインは、種によって分類されている。
  7. ドメイン: タンパク質の一部。単純なタンパク質の場合、ドメインはタンパク質全体を指すこともある。

クラス

編集

SCOPバージョン1.75で最も広域のグループは、タンパク質フォールドクラス英語版である。これらのクラスは、二次構造の構成が類似した構造をグループ化しているが、全体的な三次構造や進化上の起源は異なる。これは、SCOP階層分類の最上位の「ルート」(root)である。

ルート: scop

クラス:
 1. All-αタンパク質 [46456] (284)                         αヘリックスで構成されたドメイン
 2. All-βタンパク質 [48724] (174)                         βシートで構成されたドメイン
 3. αおよびβタンパク質 (a/b) [51349] (147)               主に平行βシート (β-α-βユニット)
 4. αおよびβタンパク質 (a+b) [53931] (376)               主に逆平行βシート (分離されたαおよびβ領域)
 5. マルチドメインタンパク質 (αおよびβ) [56572] (66)     異なるクラスに属する2つ以上のドメインからなるフォールド
 6. および細胞表面タンパク質およびペプチド [56835] (58)  免疫系のタンパク質を含まない
 7. 小タンパク質 [56992] (90)                              通常、金属リガンド補因子、および/またはジスルフィド架橋が支配的
 8. コイルドコイルタンパク質 [57942] (7)                   真のクラスではない
 9. 低解像度タンパク質構造 [58117] (26)                    真のクラスではない
10. ペプチド [58231] (121)                                 ペプチドおよびフラグメント。真のクラスではない
11. 設計されたタンパク質 [58788] (44)                      本質的に非天然配列を持つタンパク質の実験的構造。真のクラスではない

角括弧内の数字は「sunid」(SCOP unique integer identifier)と呼ばれ、SCOP階層内における各ノードのSCOP固有の整数識別子である。丸括弧内の数字は、各カテゴリに含まれる要素の数を示している。たとえば「All-αタンパク質」クラスには284のフォールドがある。階層の各メンバーは、次の階層のレベルへのリンクとなっている。

フォールド

編集

それぞれのクラスには、いくつかの異なるフォールドが含まれている。この分類レベルは三次構造が類似していることを示しているが、必ずしも進化的関連性があるとは限らない。たとえば、「All-αタンパク質」クラスには、280以上の異なるフォールドが含まれている。そこには、『グロビン様(コア:6ヘリックス、折りたたまれた葉、一部が開いている)』、『長いαヘアピン(2ヘリックス、逆平行ヘアピン、左巻きねじれ)』、『タイプIドックリン英語版ドメイン(2つのカルシウム結合ループヘリックスモチーフの縦列反復、EFハンドとは異なる)』などが含まれる。

スーパーファミリー

編集

フォールド内のドメインは、さらにスーパーファミリーに分類される。これは、構造的類似性英語版が進化的関連性を示すのに十分であり、したがって共通の祖先を共有するタンパク質の最大のグループである。しかし、スーパーファミリーの異なるメンバーは配列相同性英語版が低いため、この祖先は遠く離れた存在であると推定される。たとえば、「グロビン様」フォールドの2つのスーパーファミリーは、『グロビンスーパーファミリー英語版』と『αヘリックス・フェレドキシンスーパーファミリー(2つのFe4-S4クラスターを含む)』である。

ファミリー

編集

タンパク質ファミリーは、スーパーファミリーよりも密接な関係がある。ドメインが次のいずれかを持つ場合、同じファミリーに分類される。

  1. 30%以上の配列相同性
  2. ある程度の配列相同性(たとえば、15%)を持ち、かつ、同じ機能を実行する。

配列と構造の類似性は、これらのタンパク質が同じスーパーファミリーのタンパク質よりも進化的に近い関係にあることを示す証拠である。BLASTなどの配列ツールは、ドメインをスーパーファミリーやファミリーに分類するのを支援するために使用される。たとえば、「グロビン様」フォールド内の「グロビン様」スーパーファミリー内は、次の4つのファミリーが含まれる。すなわち『切断型ヘモグロビン(第1ヘリックスを欠く)』、『神経組織ミニヘモグロビン(第1ヘリックスを欠くが、それ以外は切断型よりも従来のグロビンに似ている)』、『グロビン(ヘム結合タンパク質)』、『フィコシアニンフィコビリソームタンパク質(N末端に2つの余分なヘリックスを持つ2種類のグロビン様サブユニットのオリゴマーがビリン発色団と結合する)』である。SCOPに登録されているファミリーには、それぞれ sccs という簡潔な分類文字が割り当てられており、アルファベットはドメインが属するクラスを示し、続く整数はそれぞれフォールド、スーパーファミリー、ファミリーを識別する(例:「グロビン」ファミリーの場合はa.1.1.2)[11]

PDB登録ドメイン

編集

「TaxId」は分類ID番号で、NCBI分類ブラウザにリンクしており、タンパク質が属する種についての詳細な情報を提供している。種またはアイソフォームをクリックすると、ドメインのリストが表示される。たとえば『ヘモグロビン, ヒトのα鎖』(Hemoglobin, alpha-chain from Human (Homo sapiens))というタンパク質には、2dn3(cmoとの複合体)や2dn1(hem, mbn, oxyとの複合体)など、190以上の解決済みのタンパク質構造がある。PDB番号をクリックすると、分子の構造が表示されるはずであるが、現在はリンクが切れている(SCOP以前はリンクが機能していた)。

・注意:この記述は(SCOP2でなく)SCOPバージョン1.75[8]に基づく。

ヒトのトリプシンの系統

SCOPのほとんどのページには検索ボックスがある。「trypsin +human」と入力すると、「ヒトのトリプシノーゲン」タンパク質を含む、いくつかのタンパク質が検索される。そのエントリーを選択すると、ほとんどのSCOPページの上部にある「系統」(Lineage)を含むページが表示される。

Protein: Trypsin(ogen) from Human (Homo sapiens) [TaxId: 9606]

Lineage:
 1. Root: scop
 2. Class: All beta proteins [48724]
 3. Fold: Trypsin-like serine proteases [50493]
    barrel, closed; n=6, S=8; greek-key
    duplication: consists of two domains of the same fold
 4. Superfamily: Trypsin-like serine proteases [50494]
    link to SUPERFAMILY database - Superfamily
 5. Family: Eukaryotic proteases [50514]
 6. Protein: Trypsin(ogen) [50515]
 7. Species: Human (Homo sapiens) [TaxId: 9606] [50519]

PDB Entry Domains:
 1. 1trn
    complexed with isp, po4
      1. chain a [26000]
      2. chain b [26001]

枯草菌由来のサブチリシン, カールスバーグ系統

「Subtilisin」で検索すると、「枯草菌由来のサブチリシン, カールスバーグ系統」のタンパク質が次の系統で返される。

Protein: Subtilisin from Bacillus subtilis, carlsberg [TaxId: 1423]

Lineage:
 1. Root: scop
 2. Class: Alpha and beta proteins (a/b) [51349]
    Mainly parallel beta sheets (beta-alpha-beta units)
 3. Fold: Subtilisin-like [52742]
    3 layers: a/b/a, parallel beta-sheet of 7 strands, order 2314567; left-handed crossover connection between strands 2 & 3
 4. Superfamily: Subtilisin-like [52743]
    link to SUPERFAMILY database - Superfamily
 5. Family: Subtilases [52744]
 6. Protein: Subtilisin [52745]
 7. Species: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]

PDB Entry Domains:
 1. 1r0r
    complexed with ca
      1. chain e [96735]
         後略

これらのタンパク質はどちらもプロテアーゼであるが、同じフォールドにさえ属しておらず、収斂進化の例であることに一致している。

他の分類システムとの比較

編集

SCOP分類は、主なライバルであるCATHの半自動分類と比較して、手作業による判断に依存している。人間の専門知識は、あるタンパク質が進化的に関連しているために同じスーパーファミリーに割り当てるべきなのか、それとも類似性は構造的な制約の結果であり、したがって同じフォールドに属するのかを判断するために使われる。もう一つのデータベースであるFSSPは、純粋に自動生成されていて(定期的な自動更新を含む)分類はされていないため、ユーザーは個々のタンパク質構造のペアワイズ比較に基づいて、構造的関係の重要性について自分で結論を出すことができる。

SCOPの後継

編集

2009年までに、オリジナルのSCOPデータベースは38,000件のPDBエントリを手動で厳密な階層構造に分類した。タンパク質構造の報告が加速している中、分類の限定された自動化では追いつかず、包括的なデータセットに繋がらなかった。2012年にリリースされた拡張タンパク質構造分類(Structural Classification of Proteins extended、SCOPe)データベースは、同じ階層システムのはるかに優れた自動化を備えたもので、SCOPバージョン1.75と完全な後方下位互換性がある。2014年には、正確な構造の割り当てを維持するために、SCOPeに手動キュレーションが再導入された。2015年2月現在、SCOPe 2.05はPDBエントリー(合計110,000件)のうち71,000件を分類した[12]

SCOP2プロトタイプは、タンパク質構造分類のベータ版で、タンパク質構造の進化に内在する進化的複雑性をより高めることを目的としている[13]。したがって、これは単純な階層構造ではなく、タンパク質スーパーファミリーを接続する有向非巡回グラフネットワークであり、循環置換英語版ドメイン融合、ドメイン崩壊などの構造的および進化的関係を表している。そのため、ドメインは厳密に固定された境界線で区切られるのではなく、最も類似した他の構造との関係によって定義される。このプロトタイプは、SCOPバージョン2データベースの開発に使用された[7]。2020年1月にリリースされたSCOPバージョン2には、SCOPバージョン1.75での3,902ファミリーと1,962スーパーファミリーと比較して、5,134ファミリーと2,485スーパーファミリーが含まれている。その分類レベルは、504,000以上のタンパク質構造を表す41,000以上の非冗長ドメインを編成している。

2014年に公開されたタンパク質ドメイン進化的分類データベース(Evolutionary Classification of Protein Domains、ECOD)データベースは、SCOPバージョン1.75のSCOPe拡張版に類似している。互換性のあるSCOPeとは異なり、「クラス - フォールド - スーパーファミリー - ファミリー」階層を「アーキテクチャ - X - ホモロジー - トポロジー - ファミリー」(architecture-X-homology-topology-family、A-XHTF)分類に変更し、最後のレベルは主にPfamによって定義され、また未分類の配列についてはHHsearch英語版クラスタリングによって補完される[14]。ECODは、3つの後継システムの中で最も広くPDBを網羅している。つまり、すべてのPDB構造を網羅し、隔週で更新されている[15]。Pfamへの直接マッピングは、Pfamのキュレーターが「クラン」(clan)分類を補足するために、ホモロジーレベルのカテゴリーを使用する際に有用である[16]

参照項目

編集

脚注

編集
  1. ^ a b Andreeva A, Howorth D, Chandonia JM, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (January 2008). “Data growth and its impact on the SCOP database: new developments”. Nucleic Acids Research 36 (Database issue): D419-25. doi:10.1093/nar/gkm993. PMC 2238974. PMID 18000004. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238974/. 
  2. ^ a b Chandonia JM, Fox NK, Brenner SE (January 2019). “SCOPe: classification of large macromolecular structures in the structural classification of proteins-extended database”. Nucleic Acids Research 47 (D1): D475–D481. doi:10.1093/nar/gky1134. PMC 6323910. PMID 30500919. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6323910/. 
  3. ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (April 1995). “SCOP: a structural classification of proteins database for the investigation of sequences and structures”. Journal of Molecular Biology 247 (4): 536–40. doi:10.1006/jmbi.1995.0159. PMID 7723011. 
  4. ^ Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C (January 1999). “SCOP: a Structural Classification of Proteins database”. Nucleic Acids Research 27 (1): 254–6. doi:10.1093/nar/27.1.254. PMC 148149. PMID 9847194. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC148149/. 
  5. ^ Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C (January 2000). “SCOP: a structural classification of proteins database”. Nucleic Acids Research 28 (1): 257–9. doi:10.1093/nar/28.1.257. PMC 102479. PMID 10592240. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102479/. 
  6. ^ Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (January 2004). “SCOP database in 2004: refinements integrate structure and sequence family data”. Nucleic Acids Research 32 (Database issue): D226-9. doi:10.1093/nar/gkh039. PMC 308773. PMID 14681400. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308773/. 
  7. ^ a b Andreeva A, Kulesha E, Gough J, Murzin AG (January 2020). “SCOP database in 2020: : expanded classification of representative family and superfamily domains of known protein structures”. Nucleic Acids Research 48 (Database issue): D376–D382. doi:10.1093/nar/gkz1064. PMC 7139981. PMID 31724711. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7139981/. 
  8. ^ a b SCOP: Structural Classification of Proteins. 1.75 release (June 2009)”. scop.mrc-lmb.cam.ac.uk. 2021年5月3日閲覧。
  9. ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (April 1995). “SCOP: a structural classification of proteins database for the investigation of sequences and structures”. Journal of Molecular Biology 247 (4): 536–40. doi:10.1016/S0022-2836(05)80134-2. PMID 7723011. オリジナルの2012-04-26時点におけるアーカイブ。. https://web.archive.org/web/20120426170732/http://scop.mrc-lmb.cam.ac.uk/scop/ref/1995-jmb-scop.pdf. 
  10. ^ PDB: 2DN1​; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (July 2006). “1.25 A resolution crystal structures of human haemoglobin in the oxy, deoxy and carbonmonoxy forms”. Journal of Molecular Biology 360 (3): 690–701. doi:10.1016/j.jmb.2006.05.036. PMID 16765986. 
  11. ^ Lo Conte L, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (January 2002). “SCOP database in 2002: refinements accommodate structural genomics”. Nucleic Acids Research 30 (1): 264–7. doi:10.1093/nar/30.1.264. PMC 99154. PMID 11752311. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC99154/. 
  12. ^ What is the relationship between SCOP, SCOPe, and SCOP2”. scop.berkeley.edu. 2015年8月22日閲覧。
  13. ^ Andreeva A, Howorth D, Chothia C, Kulesha E, Murzin AG (January 2014). “SCOP2 prototype: a new approach to protein structure mining.”. Nucleic Acids Research 42 (Database issue): D310-4. doi:10.1093/nar/gkt1242. PMC 3964979. PMID 24293656. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3964979/. 
  14. ^ Cheng H, Schaeffer RD, Liao Y, Kinch LN, Pei J, Shi S, Kim BH, Grishin NV (December 2014). “ECOD: an evolutionary classification of protein domains”. PLOS Computational Biology 10 (12): e1003926. Bibcode2014PLSCB..10E3926C. doi:10.1371/journal.pcbi.1003926. PMC 4256011. PMID 25474468. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4256011/. 
  15. ^ Evolutionary Classification of Protein Domains”. prodata.swmed.edu. 18 May 2019閲覧。
  16. ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC, Qureshi M, Richardson LJ, Salazar GA, Smart A, Sonnhammer EL, Hirsh L, Paladin L, Piovesan D, Tosatto SC, Finn RD (January 2019). “The Pfam protein families database in 2019”. Nucleic Acids Research 47 (D1): D427–D432. doi:10.1093/nar/gky995. PMC 6324024. PMID 30357350. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6324024/. 

外部リンク

編集