「計算言語学」の版間の差分
削除された内容 追加された内容
14行目:
<author>夏目漱石</author>
==
{{Seealso|コーパス|コーパス言語学}}
=== 出現頻度 ===▼
{{Seealso|計量文献学}}
=== 統計手法 ===
▲==== 出現頻度 ====
[[文字]]、単語、単語の[[品詞]]、複数単語の組などの頻度を総数で割る。
==== ''n''-gram ====
1 つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 ''n'' 個の単位にだけ依存すると考える言語モデル。
==== 共起頻度 ====
一定区間に ''n'' 個の単位が出現 (共起) する頻度。2 つの単語が一緒に出てくる共起のしやすさを計る。作成された単語の[[クラスタ]]は、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。
|