CATHタンパク質構造分類データベース: CATH Protein Structure Classification database)は、タンパク質ドメインの進化的関係に関する情報を提供する、無料の公開オンラインリソースである。これは1990年代半ばにChristine Orengo英語版教授と同僚のJanet Thornton英語版David Jones英語版らによって開発され[2]、現在もユニヴァーシティ・カレッジ・ロンドンのOrengoグループによって開発が続けられている。CATHは、SCOPリソースと大くの幅広い特徴を共有しているが、詳細な分類が大きく異なる領域も多くある[3][4][5][6]

CATH
内容
説明 タンパク質構造分類
コンタクト
研究拠点 ユニヴァーシティ・カレッジ・ロンドン
研究所 構造分子生物学研究所
主要引用 Dawson et al. (2016) [1]
公開日 1997
アクセス
ウェブサイト cathdb.info
ダウンロードURL cathdb.info/download
ツール
その他
データ公開頻度 CATH-Bは毎日リリースされている。公式リリースはほぼ毎年行われている。
バージョン 4.3
テンプレートを表示

階層的な構成 編集

実験的に決定されたタンパク質の立体構造を蛋白質構造データバンク(PDB)から取得され、必要に応じて連続するポリペプチド鎖に分割する。これらの鎖の中にあるタンパク質のドメインは、自動化された方法と手作業によるキュレーションを組み合わせて識別される。

次に、それらのドメインはCATHの構造階層の中で分類される。クラス(C)レベルでは、二次構造の内容に応じてドメインが割り当てられる。すなわち、すべてがαヘリックス、すべてがβシート、αとβの混合、または二次構造がほとんどないなどである。アーキテクチャ(A)レベルでは、三次元空間における二次構造の配置に関する情報を用いて割り当てを行う。トポロジー/フォールド(T)レベルでは、二次構造の要素がどのように接続され、配置されているかの情報が用いられる。相同スーパーファミリー(H)レベルでは、ドメインが進化によって関連していること[2]、すなわちそれらが相同であることを示す十分な証拠がある場合に割り当てられる。

CATH階層の4つの主要レベル
# レベル 説明
1 クラス(Class) ドメインの全体的な二次構造の内容。(SCOPの「クラス英語版」に相当)
2 アーキテクチャ(Architecture) 高い構造的類似性を持つが、ホモロジーの証拠はない。(SCOPの「フォールド」レベルに相当)
3 トポロジー/フォールド(Topology/fold) 特定の構造的特徴を共有するトポロジーの大規模なグループ。
4 相同スーパーファミリー(Homologous superfamily) 実証可能な進化的関係を示す。(SCOPのスーパーファミリーに相当)

構造が実験的に決定されていないドメインの追加の配列データは、CATHの姉妹リソースであるGene3Dから提供されており、相同スーパーファミリーの作成に使用されている。UniProtKBおよびEnsemblのタンパク質配列をCATH HMMと照合して、ドメイン配列の境界を予測し、相同スーパーファミリーの割り当てを行う。

リリース 編集

CATHチームは、12ヶ月ごとにCATH分類の公式リリースを提供することを目標としている。このリリースプロセスは、内部検証、追加のアノテーション、および分析の提供を可能にするため重要である。ただし、PDBに新しい構造が登録されてから、CATHの最新の公式リリースまでに時間がかかることもある。

この問題に対処するために CATH-Bは、最新のドメインアノテーション(ドメイン境界やスーパーファミリーの分類など)ついて、限られた量の情報のみ提供する。

CATH-Gene3Dの最新リリース(v4.3)は2020年12月にリリースされ、以下で構成されている。

  • 500,238件の構造タンパク質ドメインのエントリ[1]
  • 151,000,000件の非構造タンパク質ドメインのエントリ[1]
  • 5,481件の相同スーパーファミリーのエントリ[1]
  • 212,872件の機能ファミリーのエントリ[1]

オープンソースソフトウェア 編集

CATHはオープンソースソフトウェアプロジェクトであり、開発者は多くのオープンソースツールを開発および維持している[7]。CATHはGitHub上にTodoリストを保持しており、外部のユーザーがCATHタンパク質構造分類に関連する問題を作成し、追跡できるようにしている。

脚注 編集

  1. ^ a b c d e Dawson, NL; Lewis, TE; Das, S; Lees, JG; Lee, D; Ashford, P; Orengo, CA; Sillitoe, I (28 November 2016). “CATH: an expanded resource to predict protein function through structure and sequence.”. Nucleic Acids Research 45 (D1): D289–D295. doi:10.1093/nar/gkw1098. PMC 5210570. PMID 27899584. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5210570/. 
  2. ^ a b Orengo, CA; Michie, AD; Jones, S; Jones, DT; Swindells, MB; Thornton, JM (1997). “CATH – a hierarchic classification of protein domain structures”. Structure 5 (8): 1093–1109. doi:10.1016/S0969-2126(97)00260-8. ISSN 0969-2126. PMID 9309224. 
  3. ^ CATH: Protein Structure Classification Database at UCL”. Cathdb.info. 2017年3月9日閲覧。
  4. ^ CATH”. Cathdb.info. 2017年3月9日閲覧。
  5. ^ CATH Database (@CATHDatabase)”. Twitter. 2017年3月9日閲覧。
  6. ^ Pearl, F. M. G. (2003). “The CATH database: an extended protein family resource for structural and functional genomics”. Nucleic Acids Research 31 (1): 452–455. doi:10.1093/nar/gkg062. ISSN 1362-4962. PMC 165509. PMID 12520050. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC165509/. 
  7. ^ Tools”. cathdb.info. 2016年12月18日閲覧。