削除された内容 追加された内容
U-ichi (会話 | 投稿記録)
+interlang,+cat
m sty
1行目:
'''tf-idf'''文章中の特徴的な単語(重要とみなされる単語)を抽出するための[[アルゴリズム]]であり、主に[[情報検索]]や[[文章要約]]などの分野で利用される。
主に[[情報検索]]や[[文章要約]]などの分野で利用される.
 
tf-idfは,tf(、tf(単語の出現頻度)とidf(逆出現頻度)の二つの指標で計算される
 
<math> \mathrm{tfidf} = \mathrm{tf} \cdot \mathrm{idf} </math>
10 ⟶ 9行目:
<math> \mathrm{idf_i} = \log \frac{|D|}{|\{d: d \ni t_{i}\}|}</math>
 
<math> n_i </math>は単語iの出現頻度<math> |D| </math>は総ドキュメント数<math>|\{d: d \ni t_{i}\}|</math>は単語iを含むドキュメント数であるそのため,idf、idfは一種の一般語フィルタとして働き多くのドキュメントに出現する語(一般的な語)は重要度が下がり特定のドキュメントにしか出現しない単語の重要度を上げる役割を果たす
 
[[Category:アルゴリズム]]
[[Category:自然言語処理]]
 
[[de:TF-IDF]]
17 ⟶ 19行目:
[[ru:TF-IDF]]
[[zh:TF-IDF]]
 
[[Category:アルゴリズム]]