「計算言語学」の版間の差分

削除された内容 追加された内容
恵比寿1 (会話 | 投稿記録)
信頼のおける参考文献を基に大幅に書き改めた
1行目:
{{出典の明記|date=2012年1月|ソートキー=学}}
{{言語学}}
'''計算言語学'''(けいさんげんごがく、{{lang-en-short|computational linguistics}})とは、形式性を重視する[[言語学]]の一分野である<ref>戸次[[計算機科学2010:まえがき]]における[[</ref>。自然言語処理]]の類似点もみられるが、計算言語学という言い方をした場合、言語学[[ルーツ]]を持ちながらも[[コンピュータ]]の観点からの[[自然言語]]の[[論]][[モデリング]]を中心とした研究分野を指すことが多い。このモデリング自体は科系言語学に限定」と称されていわけではなく、他にも<ref>戸次[[コンピュータ科学2010:pp.1-2]]、[[人工知能]]、[[認知心理学]]などが研究に参加している</ref>
 
類似名称の言語学分野に[[計量言語学]]があるが、計量言語学は統計的な手法により自然言語を研究する分野であり計算言語学とは異なる。
== 自然言語処理 ==
{{Main|自然言語処理}}
実際の言語データ([[コーパス]])から計算によって言語の特徴を取り出し、言語の分析を行う。
* [[形態素解析]]
* [[句構造規則|句構造解析]]と[[係り受け|係り受け解析]]
* 単語・品詞 n-gram 頻度 等
 
== 応用概要 ==
=== タグ付きコーパス ===
=== 計言語学の定義 ===
コーパスに情報を付加することでより複雑で正確な分析を行う。
本稿冒頭で述べたように計算言語学は形式性を重視する[[言語学]]の一分野であるが、計算言語学と隣接分野、特に自然言語処理、の境界線は曖昧である。計算言語学と自然言語処理の差異については、専門家から次のような指摘がなされている。
 
{{Quotation|言語に関する情報科学的な研究の目的は,人間の言語処理過程の科学的な究明や,ワープロや機械翻訳などの工学的な応用を含み,きわめて多岐にわたる。 …中略…「自然言語処理」はどちらかというと工学的な応用を指向した言い方であり,「計算言語学」にはもう少し基礎的・理論的なニュアンスがある|松本ほか[2000:p.80]}}
例:
# 発話 ||| Type ||| Queryset
夏目漱石の生年月日を教えて下さい ||| Question ||| 夏目漱石,生年月日
今日はいい天気ですね ||| Dialogue |||
計算言語学では何を研究しますか ||| Question ||| 計算言語学,とは
 
計算言語学は他に[[自然言語処理]]、[[理論言語学]]、[[数理論理学]]からなる数理言語学の一分野とされる<ref>畠山ほか2013:p.ⅳ]</ref>場合もあるが、ここでも理学系の「計算言語学」、工学系の「自然言語処理」と位置付けられている。
== 計量言語学 ==
{{See also|コーパス|コーパス言語学}}
{{See also|計量文献学}}
([[:en:Quantitative linguistics]])
=== 統計手法 ===
==== 出現頻度 ====
[[文字]]、単語、単語の[[品詞]]、複数単語の組などの頻度を総数で割る。
 
:::[[File:ML1.jpg|center]]
==== ''n''-gram ====
1 つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 ''n'' 個の単位にだけ依存すると考える言語モデル。
 
一方で、計算言語学と自然言語処理が同義で用いられることもしばしばある。実際、この分野で最も権威ある国際会議 The Association for Computational Linguistics は計算言語学(Computational Linguistics)の国際会議を自称するものの、現在では自然言語処理を指向した研究が多くを占めている<ref>戸次[2010:まえがき]</ref>。
==== 共起頻度 ====
一定区間に ''n'' 個の単位が出現 (共起) する頻度。2 つの単語が一緒に出てくる共起のしやすさを計る。作成された単語の[[クラスタ]]は、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。
 
=== 計算言語の主な領域 ===
畠山ほか[2013]によれば、計算言語学は次の領域からなる。上述のように境界の連続性から「計算言語学で扱われそうな項目が自然言語処理で扱われていたりする」<ref>畠山ほか[2013:p.172]</ref>ため、適宜同書を参照されたい。
日本には、主として日本の国語についてこの分野を扱う「計量国語学会」<ref>http://www.math-ling.org/</ref>がある。同学会の結成は1956年12月15日と、世界的に見ても早いものであった。<ref>[[水谷静夫]]によれば、第一回の研究発表会が終わって街に出たら、初の人工衛星のニュース([[スプートニク1号]]とすれば、1957年の秋頃か)を聞いた、という事が印象的であった、という。『国語学五つの発見再発見』p. 116</ref>
 
* 文法枠組・理論
== 応用 ==
** [[情報検索文脈自由文法]]
** [[確率文脈自由文法]]
* [[情報抽出]]
** [[自動要約生成|木接合書要約]]
** [[組み合わせ範疇文法]]
* [[質問応答システム|質問応答]]
** [[主辞駆動句構造文法]]
* [[機械翻訳]]
 
* 構文解析アルゴリズム
== 現在の研究課題 ==
** [[CKY法]]
計算言語学の主な研究課題には以下のものがある。
** [[アーリー法]]
** [[チャート法]]
** [[最大全域木法]]
** [[シフト・還元法]]
 
* 言語解析
* コンピュータ支援コーパス言語学
** [[形態素構文解析]]
* 自然言語のパーサ設計
** [[深い構文解析]]
* 品詞判別
** [[意味解析]]
* 敬語文の作成支援
** [[機械翻訳格解析]]
** [[参照解析]]
* 文の誤り訂正
 
* [[自動要約]]
* 技術
** [[知識獲得]]
** [[テキスト含意関係認識]]
** [[機械翻訳]]
** [[情報抽出]]
** [[自動要約]]
 
== 注 ==
<references/>
 
== 参考文献 ==
*{{Cite journal|和書
|author = 戸次大介
|title = 日本語文法の形式理論
|year = 2010
|publisher = くろしお出版
|ISSN = 9784874244685 }}
 
*{{Cite journal|和書
|author = 畠山 雄二ほか
|title = 数理言語学事典
|year = 2013
|publisher = 産業図書
|ISSN = 9784782801765 }}
 
*{{Cite journal|和書
|author = 松本 裕治ほか
|title = 言語の科学入門
|year = 2004
|publisher = 岩波書店
|ISSN = 9784000069014 }}
 
== 外部リンク ==