lawpalyer logo

統計 109 年迴歸分析考古題

民國 109 年(2020)統計「迴歸分析」考試題目,共 9 題 | 資料來源:考選部

0 題選擇題 + 9 題申論題

下表為2019年不動產經營業依據實價交易總金額、房仲店數,及平均每店 全年傭收資料。 3 X 之定義為:若該縣市非為直轄市定義為0,若該縣市為 直轄市定義為1。 縣市 X1 Y X2 X3 房仲店數 交易總金額(億)平均每店全年傭收(萬) 直轄市 臺南市 437 2601 1666 1 新北市 1167 6750 1620 1 高雄市 704 3906 1533 1 桃園市 904 4806 1489 1 新竹縣市 411 1815 1236 0 彰雲投 457 1970 1207 0 臺中市 1323 5523 1169 1 臺北市 1375 5306 1081 1 其他縣市 850 2859 942 0 以交易總金額為反應變數,得到下列迴歸估計結果: 模型 估計值 標準誤 s R2 A 截距項 482.770 747.674 869 0.783 X1 4.089 0.813 B 截距項 2024.181 3391.482 1823 0.045 X2 1.450 2.514 C 截距項 2214.667 718.778 1245 0.555 X3 2600.667 880.320 D 截距項 -4006.893 727.336 323.1 0.974 X1 4.586 0.311 X2 3.066 0.459 E 截距項 411.784 599.364 695.6 X1 3.148 0.777 X3 1302.549 586.997 F 截距項 4766.304 2455.545 1229 0.628 X2 -2.261 2.083 X3 3274.570 1068.252 G 截距項 -6603.893 671.369 156.3 0.995 X1 5.774 0.302 X2 4.885 0.458 X3 -1235.952 272.105 表中s為迴歸誤差之標準差的估計值。以顯著水準為0.05,回答下列問題: 檢定各模型中X2之係數顯著性,並比較其結果。(16分) 分別解釋並比較模型C與G中X3之係數估計值的意義。(5分) 寫出模型D的變異數分析表(analysis of variance table),並檢定其迴歸 係數是否皆等於0。(10分) 計算模型E的R2。(6分) 若以向前選取(forward selection)方法,請詳述選取變數的程序及最終 會選到那些變數。(15分) 若以向後剔除(backward elimination)方法,請詳述選取變數的程序及 最終會選到那些變數。(8分)
df2 27 4.2100 3.3541 28 4.1960 3.3404 402 3.8647 3.0182 403 3.8646 3.0181 t0.025(28)=-2.0484, t0.025(30)=-2.0422 一、一位主管欲知道碩士級分析師的月薪是否可以用年資來預測,以作為 未來給薪的參考。他收集了30個樣本觀察值,資料包含年資(X,以年 為單位)和月薪(Y,以千元為單位)。請依據下面數據和圖1回答問題。 1 2 2 1 1 5.34, 76, ( - )( - )= , ( 2198 232.072 21 - ) = , ( - ) 890 n XY i i i n n XX i YY i i i X Y S X X Y Y S X X S Y Y             圖1 在配適 0 1 i i i Y X       的簡單線性迴歸方程式下,請利用最小平 方法計算參數β0 和β1 估計值(estimates )。如果將模型改為 1( ) i i i Y X X        ,請寫出參數α和β1最小平方估計式(least- squares estimators)及其估計標準誤(standard errors)。(12分) 假設 2 0 1 ~ ( , ) i i Y N X     ,請在顯著水準 0.05  下,檢定 0 1 H : 0 。請試述檢定統計量之值、決策法則和結論。請寫出在應 用最大概似估計(Maximum likelihood estimation)法,ߪଶ的估計值。 請寫出利用最小平方法,ߪଶ的估計值。(10分) 請問年資是5年的碩士級分析師之平均薪資的95%信賴區間。(4分) Y X 二、一位分析師受託分析一組資料。資料來自於20位25歲至34歲的健康 女性,其中包括反應變數Y(身體脂肪)和三個解釋變數(X1:皮 褶厚度,X2:大腿圓周和X3:中臂圓周)用作預測身體脂肪。該分 析師初步配適一個迴歸模型如下: 模型1 0 1 1 2 2
(28)
(30) 12 分
若隨機變數(X,Y)為二維常態分配,且X之均數為 x 、變異數為 2 x ,Y之 均數為 y 、變異數為 2 y ,X與Y之相關係數為。 在給定 i X x  的情況下,Y之條件分配亦為常態分配,證明其均數為:   | y y x y i x x x          ,i=1,2,…,n 變異數表達為   2 2 2 | 1 y x y      ,n為觀測值個數。(12分) 若將上述的結果表達為解釋變數X及反應變數Y之簡單線性迴歸模型如 下: 0 1 i i i Y X     ε ,i=1,2,…,n iε 為隨機誤差;亦即   2 i 0 1 | , i i i Y X x N x       請將 0 、 1 及 2 重新以 x 、 2 x 、 y 、 2 y 與等符號表達之。(6分) 寫出iε 的分配。(4分) 證明 2 2 y    。並說明在何種的狀況下 2 2 y    。(8分) 若 XY r 為變數X與Y之樣本相關係數, 2 R 為該迴歸模型之判定係數 (coefficient of determination),證明 2 2 XY r R  。(10分) 附表一 tα 附表二
3 1, , 20. i i i i i Y X X X i             另外,表1計算解釋變數之間的解釋能力。 表1 反應變數 解釋變數 判定係數ܴଶ ܺଵ ܺଶ, ܺଷ 99.86% ܺଶ ܺଵ, ܺଷ 99.82% ܺଷ ܺଵ, ܺଶ 99.04% 請由表1計算變異數膨脹因子(variance inflation factor, VIF)評論該 分析師所配適的迴歸模型1是否合適?如果不合適,請詳細說明原 因和解決方法。(8分) 一位分析師受託分析影響縣市首長滿意度的重要因素。滿意度分數 Y(以1~10為評分範圍,分數愈高代表愈滿意)作為反應變數。該 分析師找到一些重要的解釋變數。依據他所配適的複迴歸模型,有 些預測值有超過10的情況。請問該分析師所配適的複迴歸模型是否 合適?如果不合適,請詳細說明原因和解決的方法。(6分) 一位分析師分析2017年1月至2019年12月的旅遊人數月資料。該分 析師配適的迴歸模型如下: 模型2 2 0 1 2 1 3 2 12 11 ln( ) , ~ N(0, ) iid t t t y t M M M                 此處t 是時間, t為獨立且具有共同分配其平均數為0變異數 2 的常 態分配,ܯ௜是虛擬變數,第i 個月為1,其他月份為0,i=1, 2,…, 11。 請說明在線性迴歸模型下,如何檢查誤差項的所有假設是否有違 反。圖2是模型2的標準化殘差值(studentized residual)對應時間的 殘差圖。請問該分析師所配適的複迴歸模型是否合適?如果不合 適,請詳細說明原因和解決的方法。(10分) 圖2 三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公 分為單位)和X 身高(以英吋為單位)的關係。所建立的簡單線性模 型如下: 0 1 , 1, , . i i i Y X i n        … 請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的 順序,第二欄是殘差值。 請說明何謂異常點(outlier)和高槓桿觀察值(high leverage observation),及其之間的區別。(8分) 表2第三欄是標準化的殘差值(studentized residual)。請以此判斷是 否有異常點存在?請說明判斷準則。 表2第五欄是Student 化刪除殘差(Studentized deleted residuals,以 R-Student 表示)。第i 個R-Student 殘差是在假定將資料中的第i 個觀察值刪除,然後以剩下的n-1個觀察值來建立新的估計迴歸方 程式而標準化獲得的R-Student 殘差值。請以此判斷是否有異常點 存在?請說明判斷準則。(8分) 表2第六欄是hii(hat value),其公式為 2 2 1 ( ) 1 ( ) i ii n j j X X h n X X       , 請問 1 n ii i h  的值為何?請以此判斷是否有可能的高槓桿觀察值存 在?請說明判斷準則。表2的最後一欄,第八欄是DFFITS (Difference in Fits)值。請以此判斷是否有可能的影響點(influential observation)存在?請說明判斷準則。(8分) 表2 Obs Residual Student Residual Cook's D R- Student Hat Diag Cov Ratio DFFITS H 1 0.541 0.443 0.011 0.438 0.101 1.173 0.147 2 0.906 0.718 0.009 0.712 0.035 1.070 0.136 3 -1.777 -1.410 0.041 -1.434 0.040 0.974 -0.293
0.390 0.308 0.002 0.304 0.033 1.097 0.056
-0.977 -0.772 0.010 -0.767 0.032 1.061 -0.140
-1.510 -1.194 0.024 -1.203 0.033 1.005 -0.222
1.490 1.179 0.024 1.186 0.033 1.007 0.219
-0.160 -0.127 0.000 -0.125 0.045 1.117 -0.027 9 1.023 0.809 0.011 0.804 0.032 1.057 0.147 10 -0.510 -0.403 0.003 -0.398 0.033 1.093 -0.073 11 1.957 1.563 0.067 1.602 0.052 0.956 0.374 12 0.157 0.125 0.000 0.123 0.052 1.125 0.029 13 1.023 0.809 0.011 0.804 0.032 1.057 0.147 14 0.556 0.444 0.005 0.438 0.050 1.110 0.101 15 -0.777 -0.614 0.006 -0.608 0.032 1.077 -0.111 16 -0.243 -0.192 0.001 -0.189 0.030 1.099 -0.034 17 -2.043 -1.632 0.073 -1.679 0.052 0.941 -0.392 18 -1.810 -1.458 0.078 -1.486 0.068 0.994 -0.402 19 0.140 0.110 0.000 0.109 0.031 1.101 0.019 20 2.356 1.944 0.236 2.041 0.111 0.926 0.721 21 0.623 0.522 0.022 0.516 0.141 1.221 0.209 22 0.490 0.388 0.003 0.382 0.033 1.093 0.071 23 0.790 0.627 0.008 0.620 0.039 1.083 0.125 24 -0.843 -0.697 0.031 -0.691 0.114 1.168 -0.248 25 -0.810 -0.641 0.007 -0.635 0.033 1.075 -0.117 26 1.490 1.179 0.024 1.186 0.033 1.007 0.219 27 0.490 0.388 0.003 0.382 0.033 1.093 0.071 28 -3.545 -3.437 3.274 -4.299 0.357 0.636 -3.200 29 0.089 0.073 0.000 0.072 0.086 1.168 0.022 30 0.257 0.203 0.001 0.200 0.030 1.098 0.035 31 -1.277 -1.013 0.021 -1.014 0.040 1.040 -0.207 32 1.323 1.065 0.040 1.067 0.066 1.061 0.283 33 0.190 0.153 0.001 0.151 0.068 1.144 0.041 四、一位統計分析師受託預測單位面積房價,欲了解房價受到那些因素所 影響。收集了408筆有關於單位面積房價,屋齡(X1,以年為單位), 到最近的地鐵站的距離(X2),便利商店數量(X3),房屋座落的緯度 (X4)和經度(X5)。擬考慮的模型如下: 模型1 0 1 1 2 2 3 3 4 4 5 5 , 1, , . i i i i i i i Y X X X X X i n                … 模型2 0 1 1 2 2 3 3 , 1, , . i i i i i Y X X X i n            … 模型3 0 1 1 2 2 4 4 5 5 , 1, , . i i i i i i Y X X X X i n              … 請使用表3部分電腦輸出三個模型的變異數分析表(ANOVA, Analysis of Variance)報表來回答以下問題。 表3 模型1 ANOVA表 Response:Y DF Sum of Mean F value P-value squares square Model 5 44260 8852.03227 134.46 <.0001 Error 402 26465 65.83443 Corrected Total 407 70726 模型2 ANOVA表 Response:Y DF Sum of Mean F value P-value squares square Model 3 41703 13901 193.50 <.0001 Error 404 29023 71.83833 Corrected Total 407 70726 模型3 ANOVA表 Response:Y DF Sum of Mean F value P-value squares square Model 4 41879 10470 146.27 <.0001 Error 403 28847 71.57982 Corrected Total 407 70726 在考慮模型1之下,請檢定便利商店數量(X3)這個解釋變數是否 可以從給定模型1中刪除。請用顯著水準 0.05  檢定並敘述對立 假設、檢定統計量之值、決策法則和結論。(8分) 在考慮模型1之下,請檢定房屋座落的緯度(X4)和經度(X5)這兩 個解釋變數是否在模型1對預測單位面積房價有影響。亦即請用 0.05  檢定 0 4 5 H : 0    ,並請敘述對立假設、檢定統計量之值、 決策法則和結論。(8分) 請計算模型1,2和3的調整的複判定係數R2(the adjusted R-squared) 並試述其意義。請敘述檢定,模型誤差項所需要的假設,並綜 合檢定結果,請說明在模型1,2和3中,何者模式為最佳模型。 (10分)