lawpalyer logo

統計 104 年迴歸分析考古題

民國 104 年(2015)統計「迴歸分析」考試題目,共 8 題 | 資料來源:考選部

0 題選擇題 + 8 題申論題

兩位科學家試圖研究某一個解釋變數X 與某一個反應變數Y 之間的直線關係。數據 如下,請根據提供的數據回答以下問題: X 10 9 8 7 6 5 4 3 Y 45 20 34 58 70 57 55 44 兩位科學家委託一位統計學家協助計算他們有興趣的直線關係。為了徹底了解X 與Y 之間的直線關係,統計學家建議先試試「Y = A」,也就是說,X 與Y 之間沒 關係。請問根據以上數據,A 的估計值等於多少?(5 分) 接下來,統計學家假設的直線關係是「Y = A + B × X」,其中「B × X」意味著「『直 線斜率』乘以『X』」。也就是說,統計學家第二次研究具有「直線截距」與「直線 斜率」的直線關係。請問根據以上數據,直線斜率B 的估計值等於多少?(10 分) 最後,兩位科學家在收到上述分析報告之後,決定更動直線關係為「Y = B × X」。 也就是說,兩位科學家第三次研究的議題是「無直線截距」的直線關係。請再一 次根據以上數據,回答直線斜率B 的估計值等於多少?(10 分)
3.073 3.048 3.026 3.007 2.990 2.975
兩位科學家試圖研究某一個解釋變數X 與某一個反應變數Y 之間的直線關係。數據 如下: X 10 9 8 7 6 5 4
2.695 2.668 2.645 2.624 2.606 2.589
Y 45 20 34 58 70 57 55 44 這兩位科學家決定取得數據在「Y = A + B × X +ε,ε 為誤差項」這一項假設下的變異 數分析表。請問: 總平方和(total sum of squares)等於多少?(10 分) 迴歸平方和(regression sum of squares)等於多少?(10 分) 誤差平方和(residual sum of squares)等於多少?(5 分) 三、假設一組38 個樣本、三個變數的數據集,其中三個變數分別是一個反應變數、一個解 釋變數、加上一個源自前述解釋變數的「兩水準虛擬變數(dummy variable)」。也就是 說,這一個虛擬變數只會出現兩種數字,假設不是「0」就是「1」。請回答以下問題: 如果數據科學家提出一個這樣的複迴歸模型「反應變數= A + B × 解釋變數+ C × 虛擬 變數+ D × 虛擬變數× 解釋變數」。請寫下「虛擬變數等於1」的數學方程式?(5 分) 請說明的迴歸係數A, B, C, D 的數值以描述在「『虛擬變數等於0』與『虛擬變 數等於1』下的迴歸直線是同一條直線。」(10 分) 請說明的迴歸係數A, B, C, D 的數值以描述在「『虛擬變數等於0』與『虛擬變 數等於1』下的迴歸直線是兩平行直線。」(10 分) 104年特種考試地方政府公務人員考試試題 全一張 (背面) 等 別: 三等考試 類 科: 統計 科 目: 迴歸分析
2.490 2.462 2.437 2.416 2.397 2.380
統計學家為一位有興趣採用「迴歸分析」實踐「檢定三個處理平均數是否相等」的 科學家寫下這樣的設計矩陣X, 1 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 0 1 0 0 1 0 0 請回答以下問題: 請計算H 矩陣(hat matrix)。(5 分) 請用結果證明這時候 ) H I( − ) H I( ) H I( − = − ,其中I 是一個對角線上是1、其他 都是0 的方陣。(10 分) 根據迴歸分析理論的計算,統計學家發現檢定「三個處理平均數相等」這一項虛 無假設的檢定統計量是兩項「迴歸平方和」之間的「差」。請問是那兩項迴歸平方 和?回答問題時,請根據題意自行定義相關的符號。(10 分)
2.361 2.333 2.308 2.286 2.266 2.249 一、若考慮配適一簡單線性迴歸模型y=α+βx+ε,其中α、β 為參數,ε 為隨機誤差,且 假設其為具均數0,標準差σ之常態分配。今於配適模型後,繪出殘差對自變數x 的分析圖。請分別針對圖(a)-(c)的結果,說明迴歸模型是否恰當?若模型不恰當時, 請指出對於參數估計值是否會有偏差(bias)之影響,對於有關參數的假設檢定是 否正確,另外也請提出修正的方法。(18 分) 二、根據下列3 變數,6 個觀察值的資料 Y 1 0 1 1 0 0 X1 1 -2 1 0 0 0 X2 0 1 2 2 1 0 令Y、X1、X2 分表各變數觀察值所形成的向量,另定義X0 為長度等於6 且元素 均等於1 的向量。在以向量表示法的迴歸模型M:Y=β0X0+β1X1+β2X2+ε 中, 如何將β0X0+β1X1+β2X2 更精簡的以矩陣與參數向量表示?另外,在一般情形 下,此時ε 之機率分佈為何?(4 分) 計算迴歸模型M 中之參數向量的最小平方估計量及估計其變異數共變異數矩陣 (variance-covariance matrix)。(8 分) 令Yˆ 為長度等於6 的向量,其元素為迴歸模型M 對Y 的配適值(fitted values), 則存在一矩陣H 使得Yˆ =HY,計算此矩陣H。(4 分) 計算迴歸模型M 中的變異數膨脹因子(variance inflation factor, vif)vif(X1)與 vif(X2)。(4 分) (請接第二頁) 20 40 60 80 100 120 -20 0 20 40 (a) x Residual 20 40 60 80 100 120 -2 -1 0 1 2 3 (b) x Residual 20 40 60 80 100 120 -200 -100 0 50 100 (c) x Residual (a) (b) (c) x x x 104年公務人員高等考試三級考試試題 全三頁 第二頁 三、三高(高血壓、高血糖、高血脂)與許多重大慢性病皆有重要關係。為了解個人體 質、生活習慣等對於三高的影響因子,並對社會大眾提出建議與注意事項。因此, 研究人員由臺灣數個醫學中心,採用隨機抽樣法蒐集了10000 個就診慢性病者的資 料進行調查分析。該資料測量每個人的血壓(以收縮壓為例,單位為mmHg)及其 他相關變數如下: 性別(男性為1,女性為0),年齡(25-85 歲),身體質量指數BMI(定義為身高/體重2, 單位為m/kg2),量血壓習慣(有量血壓習慣者為1,反之為0),量血糖習慣(有 量血糖習慣者為1,反之為0),量血脂習慣(有量血脂習慣者為1,反之為0), 喝酒習慣(平均每天喝1 瓶600c.c.啤酒或相當之酒類以上者為1,反之為0),抽 煙習慣(有抽煙習慣者為1,反之為0),外食頻率(每週外食次數),運動習 慣(有運動習慣者為1,反之為0),睡眠品質(睡眠品質佳者為1,反之為0)。 研究者建立血壓(y)對所有解釋變數的迴歸模型,得到如下表(LM1)之結果,其殘 差分析也無明顯瑕疵。 模型LM1 之所有變數的解釋力為多少?一般來說,此解釋力算是高、中或低?並 解釋表中「F-statistic:4961 on 11 and 9988 DF, p-value:<2.2e-16」之意義。(4 分) 在模型LM1 下,以兩人之不同的性別、年齡及BMI 解釋參數估計值所代表之意 義。(6 分) 為了去蕪存菁,研究人員去除兩個非常不顯著的變數並得到下表模型LM2 之結 果。根據LM1 及LM2,請就下面1.或2.擇一回答(兩項均答者不予評分)。 (10 分) 1. 說明LM1 與LM2 何者較佳或差不多,並建議大眾那些變數為三高影響因子應 儘量避免或注意? 2. 此分析結果不適合用來推薦三高影響因子(說明原因及提出改進方法,此結論 是否與題結論矛盾?)。 (請接第三頁) 模型LM2 Estimate Std. Error t value Pr(>|t|) (Intercept) 97.551 0.624 156.414 0.0000 性別 19.570 0.111 176.780 0.0000 年齡 0.452 0.005 86.912 0.0000 身體質量指數BMI 1.247 0.457 2.726 0.0064 量血壓習慣 2.070 0.108 19.081 0.0000 量血糖習慣 0.556 0.100 5.532 0.0000 量血脂習慣 3.013 0.311 9.702 0.0000 喝酒習慣 -0.746 0.294 -2.539 0.0111 外食頻率 -1.836 0.979 -1.876 0.0607 運動習慣 2.934 0.858 3.420 0.0006 Residual standard error:4.923 on 9990 degrees of freedom Multiple R-squared:0.8453, Adjusted R-squared:0.8451 F-statistic:6064 on 9 and 9990 DF, p-value:< 2.2e-16 模型LM1 Estimate Std. Error t value Pr(>|t|) (Intercept) 97.487 0.627 155.365 0.0000 性別 19.564 0.113 173.786 0.0000 年齡 0.452 0.005 86.894 0.0000 身體質量指數BMI 1.249 0.458 2.729 0.0064 量血壓習慣 2.070 0.108 19.084 0.0000 量血糖習慣 0.557 0.100 5.545 0.0000 量血脂習慣 3.012 0.311 9.697 0.0000 喝酒習慣 -0.741 0.294 -2.522 0.0117 抽煙習慣 0.046 0.049 0.936 0.3494 外食頻率 -1.827 0.979 -1.866 0.0621 運動習慣 2.933 0.858 3.418 0.0006 睡眠品質 -0.005 0.019 -0.284 0.7764 Residual standard error:4.923 on 9988 degrees of freedom Multiple R-squared:0.8453, Adjusted R-squared:0.8451 F-statistic:4961 on 11 and 9988 DF, p-value:< 2.2e-16 104年公務人員高等考試三級考試試題 全三頁 第三頁 四、一個學習效果評量相關分析的報告裏,資料內容由20 人(男女各半)的4 個變數 (y,x1,x2,x3)所構成。其中y 為學習效果(其平均值96.2 且標準差為24.47),x1=1 或0 表男性及女性,x2(其平均值83.6 且標準差為5.9)與x3(其平均值65 且標 準差為10.3)分別表某性向測驗的兩種分數。下圖為資料之4 個變數間的散佈圖;此 外,下表也列出配適學習效果y 與不同解釋變數之迴歸模型的R2。 考慮模型M1,完成下面的分析表,說明填入之F value 及t value 的值所代表意義。 (12 分) Analysis of Variance Table:Response:y Df Sum Sq Mean Sq F value x1 Residuals Total Coefficients: Estimate Std. Error t value Intercept x1 考慮模型M1,計算y 在x1=1 之信心水準為90%的預測區間。(5 分) 在M1-M7 模式中,給定進入模式水準(entry level)α=0.1,採用F 檢定法,列 出前進選取(forward selection)程序與其最終選定之模式。(10 分) 根據準則Akaike Information Criterion(AIC),依序列出M1-M7 模式中的最佳3 個模型。(10 分) 針對M7 模式,在顯著水準α=0.1 下,檢定x2 與x3 之係數是否同時等於0。(5 分) y 0.0 0.2 0.4 0.6 0.8 1.0 50 60 70 80 60 80 100 120 0.0 0.2 0.4 0.6 0.8 1.0 x1 x2 75 80 85 90 60 80 100 120 50 60 70 80 75 80 85 90 x3 Model Variables in model R2 M1 x1 0.397 M2 x2 0.413 M3 x3 0.487 M4 x2, x3 0.504 M5 x1, x2 0.676 M6 x1, x3 0.697 M7 x1,x2, x3 0.697 y x1 x2 x3