削除された内容 追加された内容
編集の要約なし
編集の要約なし
10行目:
<math> \mathrm{idf_i} = \log \frac{|D|}{|\{d: d \ni t_{i}\}|}</math>
 
<math> n_{i,j} </math>は単語iの文書jにおける出現頻度回数、<math> |D| </math>は総ドキュメント数、<math>|\{d: d \ni t_{i}\}|</math>は単語iを含むドキュメント数である。そのため、idfは一種の一般語フィルタとして働き、多くのドキュメントに出現する語(一般的な語)は重要度が下がり、特定のドキュメントにしか出現しない単語の重要度を上げる役割を果たす。
 
(注) tf : Term Frequency, idf : Inverse Document Frequency