lawpalyer logo

統計 106 年迴歸分析考古題

民國 106 年(2017)統計「迴歸分析」考試題目,共 8 題 | 資料來源:考選部

0 題選擇題 + 8 題申論題

考慮一多元線性迴歸模型,其反應變數為Y,解釋變數為X1 , X2 , … , Xk,有n 個觀測 值,線性迴歸模型為 n i X X X Y i ik k i i i , ... ,1 , ...
2 1 1 0 = + + + + + = ε β β β β ,其中誤差項 iε 之期望值為0,變異數為 2 σ ,且兩兩獨立,此模型以向量及矩陣方式表示為 (*) ε β + = X Y ,其中 , 1 2 1 × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = n n Y Y Y Y # 1 2 1 1 )1 ( 1 0 )1 ( 2 1 1 21 11 , , 1 1 1 × × + + × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = n n k k k n nk k k n X X X X X X X ε ε ε ε β β β β # # # " " " " # 請回答下列問題:(每小題5 分,共30 分) 以向量及矩陣方式,試求出參數向量β 之最小平方估計量向量b。 承題,令A 為一個2 × (k+1) 的矩陣,求Ab 之變異數-共變異數矩陣。 配適值向量表為 HY Y = ˆ ,寫出矩陣H。 求出殘差向量e = Y Y ˆ − 之變異數-共變異數矩陣。 令A 為對稱矩陣,則 AY Y' 稱為Y 之二次式,將此模型之SSE(error sum of square) = e 'e 表成二次式,其中' Y 和'e 分別是Y 和e之轉置矩陣。 求出β 之最大概似估計量,對誤差項向量需要什麼假設。 二、某無人車研發公司欲預測它的行車時間Y,考慮了三個高度相關的解釋變數分別是行 駛里數X1,車種X2,車齡X3,收集過去20 個月資料得到 SSR(X1, X2, X3) = 4000, SSR(X1) = 1000, SSR(X1|X2) = 600, SSE(X1, X2, X3) = 800, 請回答下列問題:(每小題5 分,共15 分) 求偏判定係數2 X X . YX 2 1
28 4.196 3.340 29 4.183 3.328 50 4.034 3.183 52 4.027 3.175 一、請回答下列問題: 圖1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電 廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為90.12%。 請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分) 2005 2006 2008 2004 2007 2000 2001 2002 2003 1999 1999 700 deaths 600 deaths 500 deaths s 400 death Swimming-pool drownings 2009 850 BkWh 800 BkWh 750 BkWh Nuclear power plants 700 BkWh 2006 2007 2009 2005 2008 2001 2003 2000 2002 2004 Nuclear power plants Swimming-pool drownings 圖1 一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變 數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配 菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴 歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇 重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度 解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維 度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的 答案為不適用,請說明理由。(10 分) (請接第二頁) 106年公務人員高等考試三級考試試題 全四頁 第二頁 類 科:統計 科 目 :迴歸分析 二、一位分析師隨機抽取55 位大學生並蒐集到五個變數。該分析師希望研究身高(Y,英 吋)與受測者左前臂長度(X1,公分)、左腳長度(X2,公分)、頭圍(X3,公分) 和鼻長(X4,公分)之間的關係。該分析師考慮配適下列三個迴歸模型: 模型1:Y i i i i i i X X X X β β β β β ε + + + + + = 4 4
r 。 檢定偏相關係數 2 1 3 X X . YX ρ 是否為0,請求出F 檢定統計量的值。 求偏判定係數2 X . X YX 3 2 1 r (以最簡分數表示)。 106年特種考試地方政府公務人員考試試題 全一張 (背面) 等 別: 三等考試 類 科: 統計 科 目: 迴歸分析 三、一國內規模最大的律師事務所專門辦理職災案件,總經理想了解他們在捷運上的廣告有 沒有增加他們的業務量,根據過去隨機抽取11 月的資料,利用兩個解釋變數:一為單 月廣告費用X1(單位為百萬元,平均值為1 單位,標準差為2 單位),另一個為主要競 爭對手單月廣告費用X2(單位為百萬元,平均值為1 單位,標準差為2 單位)來預測職 災案件的每月增加件數Y(單位為件,平均值為3 件,標準差為2 件),下表是以不同 解釋變數配適每月增加件數Y 之迴歸模型的參數最小平方估計量和誤差平方和SSE。 迴歸模型代號 迴歸模型中的解釋變數 參數最小平方估計量 SSE LM1 X1 b1 = 0.3 5 LM2 X2 b2 = -0.1 8 LM3 X1, X2 b1 = 0.2, b2 = -0.2
3 2 2 1 1 0 模型2:Y i i i i X X ε β β β + + + = 2 2 1 1 0 模型3:Y i i i X ε β β + + = 1 1 0 請使用表1 和表2 中部分R 統計軟體輸出之變異數分析表(ANOVA,Analysis of Variance)報表來回答以下問題:(每小題10 分,共30 分) 表1 模型1 ANOVA 表 Response:Y DF Sum of Mean F value squares square X1 1 590.21 590.21 123.8106 X2|X1 1 224.35 224.35 47.0621 X3|X1, X2 1 1.4 1.4 0.294 X4|X1, X2, X3 1 0.43 0.43 0.0896 Error 50 238.35 4.77 表2 模型2 ANOVA 表 Response:Y DF Sum of Mean F value squares square X1 1 590.21 590.21 127.782 X2| X1 1 224.35 224.35 48.572 Error 52 240.18 4.62 假設該分析師採用模型1。在顯著水準α=0.05 之下,請檢定X3和X4兩個解釋變數是否 可以從給定模型1 中刪除。也就是用α=0.05 檢定 0
下面所有小題的計算若除不盡,一律四捨五入到小數第二位,否則不給分。 分別求出三個迴歸模型LM1~LM3 之判定係數。(6 分) 分別求出三個迴歸模型LM1~LM3 之修正判定係數。(6 分) 使用題的結果求出Y 和X1 之相關係數以及Y 和X2 之相關係數。(4 分) 針對迴歸模型LM3 於試卷上依序填入下列ANOVA 表中(1)~(8)之8 個空格內容。(8 分) Analysis of Variance Source DF Sum of Squares Mean Square F Value Model (1) (3) (6) (8) Error (2) (4) (7) Corrected Total 10 (5) 針對迴歸模型LM3 欲檢定X2 的係數是否為0,求出偏F 檢定的計算值。(6 分) 針對迴歸模型LM3,當迴歸係數在什麼條件下,MSR 的期望值為 2 σ ?(5 分) 若三個變數之變異數-共變異數矩陣為: ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = 16 1 0 1 4 1 0 1 1 V 為了求其相關係數矩陣,需在V 前後乘一個對角矩陣,寫出此對角矩陣。(5 分) 四、某大數據資料分析公司以Y 對三個變數X1, X2, X3 所做的複迴歸分析中,樣本大小 n = 14,得到複判定係數R2 = 90%,又將Y 改對變數X2 做迴歸分析時,得到判定係 數R2 = 70%,請回答下列問題:(每小題5 分,共15 分) 此公司欲檢定X1, X3 的迴歸係數是否為0,請求出F 檢定統計量的值。 設速食店營收為Y(單位為百萬元),廣告費為X1,有得來速(drive-through)服務 時X2 = 1,沒有則X2 = 0,做迴歸分析得到迴歸平面為Y = 1+1.5 X1+2 X2,因有得 來速服務多出來的平均營收為多少元? 承題,令 2 j R 代表解釋變數Xj 對另一個解釋變數做迴歸分析得到的判定係數, j = 1,2, 且 2 1 R = 0.65, 2 2 R = 0.95,求出X2 之變異數膨脹因子(VIF),若VIF 大於10 代 表模式有何問題?
(1)
(8) 8 分
(1)
(6)
(2)
(7)
(5) 6 分
3 0 = = Η β β : 2 R 3 X , X Y, ,並試述對立假設,檢 定統計量之值、決策法則和結論。並請計算偏相關係數 (partial R2)。 | 2 1 4 X , X 假設該分析師採用模型2。也就是在模型中僅考慮了兩個解釋變數,這兩個解釋變 數是學生的左前臂長度(X1)和左腳長度(X2)。該分析師想知道這兩個解釋變數 是否與身高(Y)有線性關係。在顯著水準α=0.05 之下,請檢定 0 2 1 0 = = Η β β : 。 並請試述檢定統計量之值、決策法則和結論。另請計算模型2 的調整的複判定係 數R2(adj R2,the adjusted R-squared)並試述其意義。又該分析師要把身高的單位 英吋轉公分(英吋乘以2.54),試述模型2 的adj R2 是否改變? 假設該分析師採用模型3。只考慮模型中具有一個解釋變數,為學生的左前臂長度 (X1)。在顯著水準α=0.05 下,該分析師想知道一個額外的解釋變數X2 是否在解 釋身高上具有顯著的貢獻。也就是說,該分析師想知道X2 對模型3 的貢獻。請協 助回答此問題並說明對立假設、檢定統計量之值、決策法則和結論。在表1 和表2 的F 檢定中,請試述需要做何假設,才能執行這些F 檢定。 (請接第三頁) 106年公務人員高等考試三級考試試題 全四頁 第三頁 類 科:統計 科 目:迴歸分析 (請接第四頁) 三、 在作迴歸分析時,經常會遇到離群值和有影響力觀察值(influential data point)的 問題。請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴 51 圖2A 圖2B 圖3A 是另一 估計式 包括第41 點觀察值 ,虛線估計式 不包括第 值?並請試述這組數據集是否包含任何有 4 分) 圖3A 圖3B  歸分析中的離群值和有影響力觀察值。(12 分) 圖2A 是一組數據的散佈圖,圖2B 提供兩條估計線,實線估計式 X Y 97 .4 8.2 ˆ + = 包 括第51 點觀察值 )) 50 ,4 ( ) , (( = Y X ,虛線估計式 i i i X 98 . 不包括第 51 51 i 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含 任何有影響力觀察值?另請說明理由。(4 分) Y 4 68 .3 ˆ + = 組數據的散佈圖,圖3B 提供兩條估計線,實線 影響力觀察值?另請說明理由。( i i 41 41 41 X Y 08 .4 95 .6 ˆ + = i i X Y 21 .5 93 .1 ˆ + = )) 16 , 10 ( ) , (( = Y X 點觀察值。請試述這組數據集是否包含任何離群 106年公務人員高等考試三級考試試題 全四頁 第四頁 類 科:統計 科 目:迴歸分析 四、一位數據分析師受冰飲企業老闆的委託,欲知道每日最高溫和該公司冰品銷售是否 有線性關係,以作為未來商品促銷的依據。他蒐集了每日最高溫(X,以攝氏為單位) 和冰品銷售(Y),共30 個樣本點。下列是這些數據的統計量: 30 = n , 9892 . 28 = X , 7065 . 34 = Y , 2128 . 360 ) )( ( 1 = − − = ∑ = n i i i Y Y X X SXY ∑ = = − = n i i X X SXX 1 2 0186 . 556 ) ( , ∑ = = − = n i i Y Y SYY 1 2 0085 . 353 ) ( 在配適 ) ( ) | ( 1 X x x X Y E − + = = β α 的簡單線性迴歸方程式下,請利用最小平方法計算 參數估計值(αˆ 和 )與分別之標準誤。並請試述 1ˆβ αˆ 和 的共變異數,也就是Cov( 1ˆβ αˆ , )。(15 分) 1ˆβ 請在試卷上,完成下列變異數分析表。在顯著水準α=0.05,請協助檢定 0 1 0 = Η β : 。 並請試述檢定統計量之值、決策法則、結論和所需要之假設。(10 分) Source Sum of Squares DF Mean square F value Regression (1) (4) Error (2) (5) (6) Total (3)
(1)
(2)
(6)
一位分析師擬以 ∑ = − −⎥⎦ ⎤ ⎢⎣ ⎡ − − − = n i i i i i X X Y Y n 2 1 1 1 1 1 ~β 估計簡單線性迴歸模型 i i i X Y ε β β + + = 1 0 , 之 斜率 n i ,..., 1 = 1β 。他可以證明 1 ~β 是一個不偏估計式。請寫出 1β 的最小平方估計式 。在無須推導 1ˆβ 1 ~β 的變異 數下,試述相較於最小平方估計式 , 1ˆβ 1 ~β ˆβ 和 何者為最佳之估計式?請詳細敘述所依據 的理由或定理。(10 分) 1