削除された内容 追加された内容
D.h (会話 | 投稿記録)
+ cat 学際領域
m style
3行目:
 
== [[自然言語処理]] ==
実際の言語データ([[コーパス]])から計算によって言語の特徴を取り出し、言語の分析を行う。
* [[形態素解析]]
* [[文法]]と[[構文解析]]
17行目:
文字、単語、単語の品詞、複数単語の組などの頻度を総数で割る。
 
=== ''n''-gram ===
1 つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 ''n'' 個の単位にだけ依存すると考える言語モデル。
 
=== 共起頻度 ===
一定区間に ''n'' 個の単位が出現 (共起) する頻度。2 つの単語が一緒に出てくる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。
 
== 応用 ==