削除された内容 追加された内容
文章, ドキュメントを文書に統語
編集の要約なし
4行目:
tf-idfは、'''tf'''({{lang-en-short|Term Frequency}}、単語の出現頻度)と'''idf'''({{lang-en-short|Inverse Document Frequency}}、逆文書頻度)の二つの指標にもとづいて計算される。
 
<math> \mathrm{tfidftfidf_{i,j}} = \mathrm{tftf_{i,j}} \cdot \mathrm{idfidf_{i}} </math>
 
<math> \mathrm{tf_{i,j}} = \frac{n_{i,j}}{\sum_k n_{k,j}}</math>