lawpalyer logo

資料由法律人 LawPlayer整理提供·歷屆國考試題完整收錄 / 法律人 LawPlayer 編輯整理

刑事警察人員 108 年資料探勘技術考古題

民國 108 年(2019)刑事警察人員「資料探勘技術」考試題目,共 4 題 | 資料來源:考選部

0 題選擇題 + 4 題申論題

假設關聯資料庫的表格R(A,B,C,D,E,F)有六個屬性A,B,C,D,E,F,各 屬性均無多值(Multi-Value)現象,其功能相依(Functional Dependency) 有下列兩條: FD1:{A,B} → {C,D,E,F} FD2:C → B 請以屬性封閉性(Closure)的概念,找出R 的所有候選鍵(Candidate Key)(6 分) 請證明R 不滿足Boyce-Codd 正規化(BCNF)。(3 分) 請試圖將R 分割,並先找出你分割出來每一表格的所有候選鍵,再證 明分割出來的每一表格均滿足BCNF,且同時證明你的分割滿足 lossless(無損)join 特性。(12 分) 你是否會建議你上述的分割?為什麼?(4 分)
假設有個資料庫記錄了對全國某種受刑人數萬人做過的某次心理測驗, B、C、D、E、F 分別代表其具有某種行為傾向。以下P{α}代表受刑人有 α 行為傾向的機率,P{α,β}代表受刑人同時有α 與β 行為傾向的機率。 P{B}= 0.08, P{C}= 0.06, P{D}= 0.04, P{E}= 0.07, P{F}= 0.02, P{B,C}= 0.04, P{ B,D}= 0.04, P{B,E}= 0.06, P{B,F}= 0.02, P{C,D}= 0.04, P{C,E}= 0.04, P{C,F}= 0, P{D,E}= 0.02, P{D,F}= 0, P{E,F}= 0.2 我們欲進行關聯規則(Association Rule)的資料探勘: 請先解釋何謂支持度(Support)、信心度(Confidence)的概念。(6 分) 假設支持度最低門檻是0.05、信心度最低門檻是0.7,請指出上述那 些是Large-1、Large-2 的項目集合(Item-set);並找出所有只包含2 個項目集合的強(Strong)關聯規則。(14 分) 在尋找關聯規則時,有個重要的反單調(Anti-monotonicity)特性可減 低運算成本,請先說明何謂此特性?再請以上述例子來說明應如何運 用此特性。(5 分)
假設我們對某種犯罪資料要進行研究,資料庫收集了4,000 筆個人的心 理、行為、參與社群等詳細資料,其中1,900 人實際有過該犯罪事實, 2,100 人則無該犯罪事實。使用兩種方法來做集群(Cluster)分析。α 方 法可分出1,400 位犯罪人,但其中100 位未有犯罪事實,但被錯誤歸為 此犯罪群;此外有600 位實際有過犯罪事實,卻未被歸為此群。β 方法 可分出1,600 位犯罪人,但其中200 位未有犯罪事實,但被錯誤歸為此 犯罪群;此外有500 位實際有過犯罪事實,卻未被歸為此群。請問應如 何評估此兩方法的優劣?你會建議選擇那個方法?為什麼?(25 分)
歡樂暢飲公司是一間行銷全世界的茶飲料公司,它的資料庫至少記錄了 2000-2018 年的30 種產品每季在全世界各地區的銷售數量與金額。請以 此為背景來說明資料倉儲的下列一些概念: 何謂主題導向(Subject-Oriented)?此處的主題是什麼?(3 分) 在為它建立模型時,有所謂的事實表格、維度表格,請舉例說明。 (3 分) 資料倉儲操作上有「向上擷取」(Roll-Up )及「向下探究」 (Drill-Down)功能,這與維度設計有何關係?(3 分) 請依此背景,設計出星型模式(Star Schema)(8 分) 請依此背景,設計出雪花模式(Snowflake Schema)(8 分)

本頁資料來源:考選部歷屆試題·整理提供:法律人 LawPlayer· lawplayer.com