假設有個資料庫記錄了對全國某種受刑人數萬人做過的某次心理測驗,
B、C、D、E、F 分別代表其具有某種行為傾向。以下P{α}代表受刑人有
α 行為傾向的機率,P{α,β}代表受刑人同時有α 與β 行為傾向的機率。
P{B}= 0.08, P{C}= 0.06, P{D}= 0.04, P{E}= 0.07, P{F}= 0.02,
P{B,C}= 0.04, P{ B,D}= 0.04, P{B,E}= 0.06, P{B,F}= 0.02, P{C,D}= 0.04,
P{C,E}= 0.04, P{C,F}= 0, P{D,E}= 0.02, P{D,F}= 0, P{E,F}= 0.2
我們欲進行關聯規則(Association Rule)的資料探勘:
請先解釋何謂支持度(Support)、信心度(Confidence)的概念。(6 分)
假設支持度最低門檻是0.05、信心度最低門檻是0.7,請指出上述那
些是Large-1、Large-2 的項目集合(Item-set);並找出所有只包含2
個項目集合的強(Strong)關聯規則。(14 分)
在尋找關聯規則時,有個重要的反單調(Anti-monotonicity)特性可減
低運算成本,請先說明何謂此特性?再請以上述例子來說明應如何運
用此特性。(5 分)