「ツリーバンク」の版間の差分

削除された内容 追加された内容
ページの置換: 「死ね!!コノヤロー!!!!!」
180.6.169.53 (会話) による ID:64377018 の版を取り消し
1行目:
'''ツリーバンク'''({{lang-en-short|Treebank}})は、[[コーパス]]の一種であり、各[[文]]に[[統語論|統語]]構造の[[注釈]]が付与されているものである。統語構造は一般に[[木構造 (データ構造)|木構造]]で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクは[[コーパス言語学]]で文法的現象の研究に使われる他、[[計算言語学]]での[[構文解析器]]の評価や訓練に使われる。
死ね!!コノヤロー!!!!!
 
== 概要 ==
ツリーバンクは既存の何らかのタグが既に付いたコーパスを使って作成されることが多い。従って、ツリーバンクは[[意味論]]的に何らかの拡張をしたり、他の言語学的情報を付与したりしている。
 
ツリーバンクは、言語学者が文一つ一つに注釈を加えていって構築することもあるし、半自動的に[[構文解析器]]で解釈し、その結果を言語学者がチェックするという方式もある。
 
ツリーバンクは特定の言語学的理論(例えば[[主辞駆動句構造文法|HPSG]])に基づいた文法的注釈を付与している場合もあるが、多くのツリーバンクは特定の理論に依存しないようにしている。しかしながら、注釈の内容によって大まかに2つに分類できる。1つは[[句構造規則]]で(例えば、[http://www.cis.upenn.edu/~treebank/ Penn Treebank])、もう1つは[[依存文法]]である(例えば、[http://ufal.mff.cuni.cz/pdt/ Prague Dependency Treebank])。
 
文法構造の表現方法は様々である。ラベル付き括弧を使ったテキスト表記の例は以下のようになる(Penn Treebank の場合)。
(S (NP (NNP John))
(VP (VBZ loves)
(NP (NNP Mary)))
(. .))
[[Extensible Markup Language|XML]]を使った表記方法もある。
 
== 各言語のツリーバンク ==
 
* アラビア語: [http://www.ircs.upenn.edu/arabic/ Penn Arabic Treebank], [http://ufal.mff.cuni.cz/padt/PADT_1.0/index.html Prague Arabic Dependency Treebank (PADT)]
* バスク語: [http://www.dlsi.ua.es/projectes/3lb/index_en.html Eus3LB], [http://ixa.si.ehu.es/Ixa/Argitalpenak/proba/1068549887/publikoak/guia.pdf Annotation guide for Eus3LB] と [http://ixa.si.ehu.es/Ixa group's home page] も参照
* ブルガリア語: [http://www.bultreebank.org/ BulTreeBank] (HPSG-based Syntactic Treebank)
* カタロニア語: [http://www.dlsi.ua.es/projectes/3lb/index_en.html Cat3LB]
* 中国語: [http://www.cis.upenn.edu/%7Echinese/ctb.html Penn Chinese Treebank], [http://godel.iis.sinica.edu.tw/CKIP/engversion/treebank.htm Sinica Treebank] by CKIP
* チェコ語: [http://ufal.mff.cuni.cz/pdt/ Prague Dependency Treebank]
* デンマーク語: [http://www.id.cbs.dk/~mtk/treebank/ Danish Dependency Treebank], [http://corp.hum.sdu.dk/arboretum.html Arboretum: A syntactic tree corpus of Danish]
* オランダ語: [http://lands.let.kun.nl/cgn/ehome.htm CGN], [http://www.let.rug.nl/%7Evannoord/trees/ Alpino]
* 英語:
** [http://www.cis.upenn.edu/~treebank/ Penn];
** [http://www.ucl.ac.uk/english-usage/ice/index.htm International Corpus of English (ICE)];
** [http://redwoods.stanford.edu/ LinGO Redwoods];
** [http://www.scs.leeds.ac.uk/amalgam/amalgam/multi-parsed.html Multi-Treebank];
** [http://www2.parc.com/istl/groups/nltt/fsbank/default.html The PARC 700 Dependency Bank];
** [http://childes.psy.cmu.edu/ CHILDES] Brown Eve corpus with dependency annotation, see Sagae, K., MacWhinney, B., and Lavie, A. (2004) [http://www.cs.cmu.edu/~sagae/docs/sagae-LREC2004-final.pdf Adding syntactic annotations to transcripts of parent-child dialogs]. In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Lisbon, Portugal.
* エストニア語: [http://math.ut.ee/~heli_u/syntkorpus.html Syntactically analyzed and disambiguated text corpus], [http://corp.hum.sdu.dk/tgrepeye_est.html Arborest]
* フランス語: [http://corp.hum.sdu.dk/arboratoire.html L'Arboratoire]
* ドイツ語: [http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/ NEGRA], [http://www.ims.uni-stuttgart.de/projekte/TIGER/ TIGER], [http://www.sfs.uni-tuebingen.de/en_tuebads.shtml The Tuebingen Treebank of Spoken German (TueBa-D/S)], [http://www.sfs.uni-tuebingen.de/en_tuebadz.shtml The Tuebingen Treebank of Written German (TueBa-D/Z)]
* ギリシア語: [http://www.ilsp.gr/homepages/prokopidis/documents/gdt_tlt2005.pdf Greek Dependency Treebank]
* ヒンディー語: [http://www.iiit.net/ltrc/Publications/Techreports/tr014/guidelines_anncorra AnnCorra]
* イタリア語: [http://www.di.unito.it/~tutreeb/index.html TUT - Turin University Treebank], [http://torvald.aksis.uib.no/corpora/2005-1/0385.html VIT - Venice Italian Treebank]
* 日本語: [http://acl.ldc.upenn.edu/W/W98/W98-0513.pdf ATR Dependency corpus], [http://www.phonetik.uni-muenchen.de/Forschung/Verbmobil/Verbmobil.html Verbmobil treebanks], [http://cl.aist-nara.ac.jp/~eric-n/publications/hinoki-intro-NLC-2004-jp.pdf 日本語ツリーバンク「檜」:言語理解のためのコーパス], [http://nlp.kuee.kyoto-u.ac.jp/nl-resource/corpus.html 京都テキストコーパス]
* 朝鮮語: [http://www.cis.upenn.edu/~xtag/koreantag/#Treebank Korean Treebank]
* ラテン語: [http://nlp.perseus.tufts.edu/syntax/treebank/ Latin Dependency Treebank]
* ノルウェー語: [http://spraktek.aksis.uib.no/projects/trepil TREPIL Norwegian treebank]
* ポーランド語: [http://dach.ipipan.waw.pl/CRIT2/ A Treebank / Test Suite for Polish] (HPSG treebank)
* ポルトガル語: [http://acdc.linguateca.pt/treebank/info_floresta_English.html Projecto Floresta Sintá(c)tica]
* ロシア語: [http://acl.ldc.upenn.edu/C/C00/C00-2143.pdf Dependency Treebank for Russian], [http://proling.iitp.ru/bibitems/treebank_lrec.pdf 別の論文]
* スロベニア語: [http://nl.ijs.si/sdt/ Slovene Dependency Treebank]
* スペイン語: [http://www.dlsi.ua.es/projectes/3lb/index_en.html Cast3LB], [http://www.lllf.uam.es/%7Esandoval/UAMTreebank.html UAM Treebank of Spanish]
* スウェーデン語: [http://w3.msi.vxu.se/~nivre/research/Talbanken05.html Talbanken05], [http://w3.msi.vxu.se/~nivre/research/st.html Swedish Treebank]
* トルコ語: [http://www.ii.metu.edu.tr/~corpus/treebank.html METU-Sabanci Treebank]
 
{{DEFAULTSORT:つりはんく}}
[[Category:言語資源]]
[[Category:機械翻訳]]
[[Category:コーパス言語学]]