在有N 篇文長近似的文件(如N 篇摘要,都約300 詞)的全文檢索系統
中,索引詞彙T 在每一篇文件都有其權重。最簡單的詞彙權重設定方式
是布林(Boolean)邏輯方式,亦即詞彙T 出現在文件D,則其權重為1,
若沒出現在文件D 則其權重為0。另一種詞彙權重設定方式為TF x IDF,
亦即:T 出現在D 的次數(或是正規化後之詞頻,TF)「乘以」T 在N
篇文件中出現篇數的倒數(或是正規化後之文件篇數倒數,IDF)。請說
明並比較布林權重、TF、IDF 及TF x IDF 等四種權重方式,對相關文件
排序的影響。(25 分)