削除された内容 追加された内容
tf式の一部
文章, ドキュメントを文書に統語
10行目:
<math> \mathrm{idf_i} = \log \frac{|D|}{|\{d: d \ni t_{i}\}|}</math>
 
<math> n_{i,j} </math>は単語<math> t_i </math>の文書<math> d_j </math>における出現回数、<math>{\sum_k n_{k,j}}</math>は文<math> d_j </math>におけるすべての単語の出現回数の和、<math> |D| </math>は総ドキュメント文書数、<math>|\{d: d \ni t_{i}\}|</math>は単語<math> t_i </math>を含むドキュメント文書数である。そのため、idfは一種の一般語フィルタとして働き、多くのドキュメント文書に出現する語(一般的な語)は重要度が下がり、特定のドキュメント文書にしか出現しない単語の重要度を上げる役割を果たす。
 
== 関連項目 ==