Universal Dependencies (UD) は、世界の言語に対するツリーバンク[1]を構築する国際的な共同プロジェクトである。これらのツリーバンクは自由にアクセス可能であり、利用することができる。主な応用分野は、自然言語処理 (NLP) の分野における自動テキスト処理と、特に言語類型論の観点から見た自然言語の構文および文法に関する研究である。本プロジェクトの主要な目的は、言語間でアノテーションの一貫性を達成することであるが、必要に応じて言語固有の拡張を許容している。アノテーション体系は、Stanford Dependencies[2]、Google universal part-of-speech tags[3]、形態統語タグセットのための Interset interlingua[4]の3つの関連プロジェクトにその起源を持つ。UD のアノテーション体系では、句構造木ではなく依存構造木の形式で表現が用いられる。現在 (2022年1月)、UD のインベントリには100以上の言語に対する200以上のツリーバンクが存在する。

依存構造 編集

UD のアノテーション体系は、依存文法の依存関係に基づいて文の統語解析を生成する。それぞれの依存関係は、依存辺にラベルを付与することによって示される統語機能によって特徴づけられる。例えば、以下のようになる[5]

 

この解析は、she、him、および a note が left に依存していることを示している。代名詞 she は名詞主語 (nsubj) として、代名詞 him は間接目的語 (iobj) として、そして名詞句 a note は直接目的語 (obj) として同定されている。さらに、a と note を結ぶ依存関係が存在するが、ここでは示されていない。次の例を見てみよう。

 

この解析では、it が主語 (nsubj)、is がコピュラ (cop)、for が格標識 (case) として同定されており、これらはすべて、代名詞である root 語の her に依存するものとして示されている。次の例では、虚辞と斜格目的語が含まれている。

 

この解析では、there が虚辞 (expl)、food が名詞主語 (nsubj)、kitchen が斜格目的語 (obl)、in が格標識 (case) として同定されている。また、the と kitchen を結ぶ依存関係も存在するが、ここでは示されていない。この例では、コピュラである is が文の root として位置づけられているが、これは直前の2つ目の例におけるコピュラの扱いとは異なっている。2つ目の例では、コピュラは root の依存要素として位置づけられていた。

ここで示した UD アノテーションの例は、もちろん UD プロジェクトとそのアノテーション体系の性質について、ある印象を与えるに過ぎない。UD の重点は、多様な言語間での構造的な平行性を促進するために、言語横断的に一貫した依存関係の分析を生成することにある。この目的のために、UD ではすべての言語に対して普遍的な品詞タグセットを使用している。ただし、特定の言語がすべてのタグを使用しなければならないわけではない。各単語に関するより具体的な情報は、自由な形態統語素性セットによって追加することができる。依存関係のラベルは、コロンの後に二次的なラベルを付与することで、二次的な関係を特定することができる。例えば、"universal:extension" の形式に従って、nsubj:pass のようになる。

機能語 編集

依存文法のコミュニティ内では、UD のアノテーション体系には議論の余地がある。主な論点は、機能語の分析に関するものである。UD では、機能語を内容語[6]に従属させる方針をとっているが、これは依存文法[7]の伝統におけるほとんどの研究とは相反するものである。この論争を簡潔に示すために、UD が与えられた文に対して生成する構造解析は以下のようになる。

 

この例は、ここで引用した論文から取ったものである[8]。依存関係を示すために、上記の例とは異なる表記法が用いられている。ここでの論点にとって統語機能は重要ではないため、この構造解析からは省略されている。重要なのは、この UD 解析が、助動詞 will を内容動詞 say に、前置詞 to を代名詞 you に、従属接続詞 that を内容動詞 likes に、そして不定詞標識 to を内容動詞 swim に従属させている点である。

これに対して、意味的な考慮よりも統語的な考慮に基づいた、より伝統的な依存文法による この文の解析は、次のようになる[9]

 

この伝統的な解析では、内容動詞 say を助動詞 will に、代名詞 you を前置詞 to に、内容動詞 likes を従属接続詞 that に、そして内容動詞 swim を不定詞標識 to にそれぞれ従属させている。

注記 編集

  1. ^ de Marneffe, Marie-Catherine; Manning, Christopher D.; Nivre, Joakim; Zeman, Daniel (13 July 2021). “Universal Dependencies”. Computational Linguistics 47 (2): 255–308. doi:10.1162/coli_a_00402. 
  2. ^ Stanford Dependencies”. nlp.stanford.edu. The Stanford Natural Language Processing Group. 2020年5月8日閲覧。
  3. ^ Petrov, Slav (11 April 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL]。
  4. ^ Interset”. cuni.cz. Institute of Formal and Applied Linguistics (Czech Republic). 2020年5月8日閲覧。
  5. ^ The three example analyses that appear in this section have been taken from the UD webpage here, examples 3, 21, and 23.
  6. ^ この選択は Nivre (2015) を参考にした。
  7. ^ The controversy surrounding UD and the status of function words in dependency grammar in general are discussed at length in Osborne & Gerdes (2019).
  8. ^ この構造はOsborne & Gerdes (2019) 論文における(1b)である。
  9. ^ この構造はOsborne & Gerdes (2019) 論文の (1c) である。