lawpalyer logo

統計 108 年迴歸分析考古題

民國 108 年(2019)統計「迴歸分析」考試題目,共 8 題 | 資料來源:考選部

0 題選擇題 + 8 題申論題

考慮下列涉及3 條可能不同截距但相同斜率之直線的簡單線性迴歸 模式: ݕ = ߚ + ߚݔଵ௜+ ߳ଵ௜ ଶ௜, ଵ௜ ଴ଵ ଵ ݕ = ߚ + ߚଵݔଶ௜+ ߳ ݔଷ௜+ ߳ଷ௜, , ଶ௜ ଴ଶ ݕ = 1 + ߚଵ , ଷ௜ ݅= 1, ⋯, ݊ 其中߳ଵଵ,⋯,߳ଵ௡,߳ଶଵ,⋯,߳ଶ௡,߳ଷଵ,⋯,߳ଷ௡為彼此獨立且期望值為0而變異數 皆為ߪଶ的隨機誤差。請利用上述所有資料求出ߚ଴ଵ, ߚ଴ଶ, ߚଵ的最小平 方估計量 (least squares estimator)ߚመ଴ଵ, ߚመ଴ଶ, ߚመଵ及ߚመଵ的變異數 ܸܽݎ൫ߚመଵ൯。(10 分) 某國政府統計分析師利用迴歸方法分析該國經濟狀況的評估分數ܻ 以及影響該國 濟狀況 所用之模式為 經 其中隨機誤差߳有下列之機率密度函數表達: 之重要指數X,其 ܻ= + ߚଵܺ+ ߳, ߚ଴ ݂ሺݔሻ= ݁௫ ሺ1 + ݁௫ሻଶ,−∞< ݔ< ∞ 當ܻ值大於0時,則該國的經濟評估為正向發展;反之即為負向發 展。考慮另一變數Q,當Y ,則Q=1,反之當Y≤ 0,則Q = 0, 即Q 該國經濟是否為正 展的指標。試求出一函數h 使得 > 0 向發 hሺߤሻ = β0+β1X, 為 其中ߤ = E(Q)為Q 的期望值。(10 分)
下列是 於模式選取及模式診斷的問題。 關 下表為給定4 種不同迴歸模式來配適13 組資料 , i=1,⋯,13,所得的AIC(Akaike’s information criterion,赤池訊息 標準)值。 ) , , , (
2 1 i i i i x x x y 模式 模式中的解 釋變數 AIC BIC A ܺଵ ܺଶ , 25.41 (1) B ܺଵ ܺଷ , 65.11 (2) C ܺ ܺଷ ଶ, 51.03 52.72 D , 2 .03 ܺଵ ܺଶ,ܺଷ 5 (3) 其中ݔ௜௝為解釋變數ܺ௝的資料值,݆= 1,2,3,隨機誤差߳ଵ, ⋯, ߳ଵଷ為彼 此獨立,期望值為0,變異數皆為ߪଶ的常態分配。請完成此表並利 用AIC 及BIC(Bayesian information criterion,貝氏訊息標準)來 選取最適合的模式。(log(a)為數字a 的自然對數值,log(2)=0.69, log(3)=1.1,log(4)=1.39,log(9)=2.2,log(10)=2.3,log(13)=2.56)。 (10 分) 列複迴 ݕ௜= ߚ଴ ଶݔ௜ଶ+ ߚଷݔ௜ଷ+ ߳௜,݅= ⋯,100, 考慮下 歸模式 + ߚଵݔ௜ଵ+ ߚ 1, 其中隨機誤差߳ଵ, ⋯, ߳ଵ଴଴為彼此獨立,期望值為0,而變異數皆為ߪଶ 的 態分配。下列的殘差圖(e 出那些(個) 不適當並請解釋為何不適當: 常 r sidual plot),請選 ⑴(y 軸)對 x 軸)的圖,即ሺ ݅ , ݁௜ ݕො( ݕො, ݁ሻ, = 1 ⋯,100; ⑵(y 軸)對 ଵ(x 軸)的圖,即 ሻ, = 1 ; ௜ ௜ ௜ ݁௜ ݔ௜ ሺݔ௜ଵ, ݁ ݅ , ⋯,100 ⑶(y 軸)對 x 軸)的圖,即ሺ ݅ , ௜ ݁௜ ݕ௜( ݕ, ݁௜ሻ, = 1 ⋯,100; ⑷(y 軸)對 圖 , ݁ = 1 ; ௜ ݁௜ ݔ ሺݔ௜ଷ ௜ሻ, ݅ , ⋯,100 ݁௜(y 軸)對݅(x ݅, ݁௜ሻ, ݅= 1, ⋯,100; ௜ଷ(x 軸)的 ,即 ⑸ 軸)的圖,即ሺ 其中資料ሺݕ௜, ݔ௜ଵ, ݔ௜ଶ, ݔ௜ଷሻ是代表第݅天收集的資料, yොi為第i 個資料之配適值(fitted value),而ei為第݅個資料之殘差 (residual)值。(5 分) 三、某跨國企業A 司 複 歸 式 公 其資料科學家利用下列 迴 模 ݕ௜= ߚ଴+ ߚଵݔ௜+ ߚଶݖ௜+ ߳௜,݅= 1,⋯,10, 來分析該公司一產品的銷售額變化量和該公司此產品價格變化量與 競爭對手B 公司其相對競爭產品價格變化量的關係,其中ݕ௜為A 公 司在第݅個地區的銷售額變化量,ݔ௜為A 公司的產品在第݅個地區的價 格變化量,ݖ௜為B 公司的競爭產品在第݅個地區的價格變化量,而隨 機誤差߳ଵ, ⋯, ߳ଵ଴為彼此獨立,期望值為0,且變異數皆為ߪଶ的常態分 配。給定銷售額變化量ݕଵ, ⋯, ݕଵ଴及下列解釋變數矩陣X 與反應變數 向量Y 的相關資訊: ܺ௧ܺ= ൥ 10 0 0 0 20 0 0 0 20 ൩,ܺ௧ܻ= ൥ 28 -20 12 ൩,yത= ∑ yi 10 i=1 10 =2.8,෍yi 2 10 i=1 =130, 其中 ܺ= ൦ 1 ݔଵ ݖଵ 1 ݔଶ ݖଶ ⋮ 1 ⋮ ݔଵ଴ ⋮ ݖଵ଴ ൪,ܻ= ൦ ݕଵ ݕଶ ⋮ ݕଵ଴ ൪, 以及ܺ௧為 矩陣。 矩陣ܺ的轉置 計算判定係數(coefficient of determination)ܴଶ及ݎ௬௬ො,其中ݎ௬௬ො是 觀察值 ݕଵ, ݕଶ, ⋯, ݕଵ଴與配適值(fitted values)ݕොଵ, ݕොଶ, ⋯, ݕොଵ଴的相關 係數(coefficient of correlation)。(8 分) =0.05 利用F 檢定法檢定 ܪ଴: ߚଵ= ߚଶ= 0及ܪଵ: ߚଵ≠0 或ߚଶ≠0。 在顯著水準α , 且完成下列關於此檢定的變異數分析表(ANOVA table)。(11 分) 來源 (source) 自由度 (degree of freedom) 平方和 (sum of squares) 均方和 (mean square) F 統計量 迴歸 (1) (4) (7) (9) 誤差 (2) (5) (8) 總和 (3) ( ) 6 在顯著水 0 F 準α = .05,利用 檢定法檢定 ܪ଴: ߚଵ+ 2ߚଶ= 0及ܪଵ: ߚଵ+ 2ߚଶ≠0。(8 分) 假定因中美貿易戰的影響,若兩公司同在第11 個地區競爭且其價 格各自調高1,即x11=1及z11=1。請計算在此地區A 公司平均銷售 額變化量E(y11)= ߚ଴+ ߚଵݔଵଵ+ ߚଶݖଵଵ的預測值及其95%預測信賴 區間,即E(y11)的點估計及區間估計。(8 分)
(1)
(2)
(3)
(2)
(3)
(4)
(9)
(10)
(13) 10 分
(1)
(7)
(2)
(8)
(3) 8 分
下列是關於配適模式不正確時造成的影響以及模式適合度問題。 某統計學家欲調查某一地區的當年新生人口與當年經濟成長率的 關係是線性或是牽涉到更高的次方關係。此統計學家蒐集了下列 在不同經濟成長率ݔ௜(單位為%)的新生人口資料 ݕ௜(單位為萬人), …,7, i=1, 3 ݕ= 30 y1=20 ݕ= 22 2 ݕ= 26 4 ݕ= 37
ݕ= 39
ݕ= 42
ݔ1 = −5 2 = −3 ݔ3 −1 ݔ = ݔ4 = 0 ݔ5 = 1 ݔ6 = 3 ݔ7 = 5 並利用下 適 列兩種 歸模 來配 資料 ௜= ߚ଴+ ߚଵݔ௜+ ߳௜ 模式 = ߚ଴+ ߚଵݔ௜+ ߚଶݔ௜ ଶ+ ߚݔ௜ ଷ+ ߳௜ 迴 式 模式 : A ݕ B:ݕ௜ ଷ 其中߳ଵ,⋯,߳଻為彼此獨立 異 皆為ߪଶ的隨機誤差。 但是真正的 歸模 是 且期望值為0,變 數 式 ݕ௜= ߚ଴+ ߚଵݔ௜+ ݔ௜ ଶ ߳௜。 迴 ߚଶ + 如果ߚመ଴஺及ߚመଵ஺為使用模式A 所得之ߚ଴及ߚଵ的最小平方估計量(least squares estimator) ,而ߚመ଴஻,ߚመଵ஻及ߚመଶ஻為使用模式B 所得之ߚ଴, ߚଵ及 ߚଶ的最小平方估計量,請得到這些估計量的期望值向量,即 ቈܧ൫ߚመ଴஺൯ ܧ൫ߚመଵ஺൯቉及൦ ܧ൫ߚመ଴஻൯ ܧ൫ߚመଵ஻൯ ܧ൫ߚመଶ஻൯ ൪。(7 分) 針對模式A,請問是否可利用此統計學家所蒐集的資料作模式缺適 檢定(lack of fit test)?如果可,請算出檢定統計量的值;如果不 可,請解釋原因。(3 分) 五、某工業研究所欲研 某 所 之 能與某化合物含量X間 的關係。利用簡單 性 究 反應過程 散發 熱 ܻ 線 迴歸模式 ݕ௜= ߚ଴+ ߚݔ+ ߳௜,݅= 1,⋯, ଵ௜ ,5 其中ݕ௜為第݅次反應過程所散發熱量之測量值,ݔ௜為第݅次反應過程此 化合物含量,且隨機誤差߳ଵ, ⋯, ߳ହ為彼此獨立,期望值為0,變異數 皆為ߪଶ的常態分配。根據5 應過程所得之資料可得估計迴歸關 係式為 次反 ݕො= 0.2+2.6x 且判定係數(coefficient of determination)ܴଶ為0.845。 計算調整判定係數(adjusted coefficient of determination)及ݔଵ, ⋯, ݔହ 與ݕଵ, ⋯, ݕହ 數 o f n correlation)。(5 分) 的相 在顯著水準ߙ= 定 關係 (c ef icie t of 0.05,利用F 檢定法檢 ܪ଴: ߚଵ= 0及ܪଵ: ߚଵ≠0。(5 分)  算 的95%信賴區間估計。(5 分) 計 ߚଵ ߚመ଴為ߚ଴的最小平 計 l q estimator),且給定ߚመ଴的標 準誤為2.13。在 ,利用t 檢定法檢定 方估 量(east s uares 顯著水準ߙ= 0.05 ܪ଴: ߚ଴≥4及ܪଵ: ߚ଴< 4。(5 分)
9 10 tdf,0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 df 11 12 13 14 15 16 17 18 19 20 tdf,0.025 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 df 21 22 23 24 25 26 27 28 29 30 tdf,0.025 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 df 1 2 3 4 5 6 7 8 9 10 tdf,0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 df 11 12 13 14 15 16 17 18 19 20 tdf,0.05 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 df 21 22 23 24 25 26 27 28 29 30 tdf,0.05 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 附表B:F 分布α=0.05 右尾臨界值, df1 為分子自由度, df2 為分母自由度 Fdf1,df2,0.05 df1\df2 1 2 3 4 5 6 1 161.45 18.51 10.13 7.71 6.61 5.99 2 199.50 19.00 9.55 6.94 5.79 5.14 3 215.71 19.16 9.28 6.59 5.41 4.76 4 224.58 19.25 9.12 6.39 5.19 4.53 5 230.16 19.30 9.01 6.26 5.05 4.39 6 233.99 19.33 8.94 6.16 4.95 4.28 一、考慮一簡單線性迴歸模型 i i i X Y ε β α + + = , i=1,…,n, 其中 iY 為因變數, i X 為自變數, iε 為誤差項且與 i X 獨立。另外,也假設 iε (i=1,…,n)具有獨 立且相同的常態分布 ) ,0 ( 2 σ N ,其中 2 σ 表變異數。(每小題5 分,共20 分) 請導出參數 β α , 的最小平方估計式 β α ˆ ,ˆ ,並證明其不偏性 (unbiasedness)。 如果其他假設不變,但 2 2 ) ( i i X Var σ ε = , i=1,…,n。說明由導出之βˆ 是 否仍具有不偏性?在此情形下,是否可提供較佳的估計式(以式子說 明概念或作法,無需列出詳細結果)? 如果其他假設不變,但 2 1) , ( ρσ ε ε = + i i Cov , i=1,…,n-1。說明由導出之βˆ 是否仍具有不偏性?試舉例說明何種類型的數據會較容易發現 0 ≠ ρ 的 情形。如何檢定 0 = ρ (以式子說明概念或作法,無需列出詳細結果)? 假設自變數 i X 無法直接被觀察到,而是觀察到一個替代變數 , ,..., 1 , n i Wi = , i i i X W δ + = iδ 為白噪音(white noise)與其他變數均獨 立,且 iδ (i=1,…,n)具有獨立且相同的常態分布 )1,0 ( N 。此時若將 i W 取 代最小平方估計式βˆ 中的 i X ,並令所得之新估計式為 w βˆ 。說明此 w βˆ 是 否仍具有不偏性?當n 很大時, w βˆ 的漸近偏差為何?在此情形下是否 可提供較佳的估計式(以式子說明概念或作法,無需列出詳細結果)? 二、在一調查薪資結構的研究中,吾人欲了解薪資(Y)與以下兩變數(X1, X2)的關係,其中X1 表性別(女性為F,男性為M),X2 表區域別(分 為A, B, C 三個區域),收集資料如下表: Y 6 4 3 4 4 2 X1 F F F M M M X2 A A B B C C 一般來說,統計軟體的語法建立Y 與兩變數的迴歸模型分析時,模式部 分可寫為Y~X1+X2(R 軟體)或Y= X1 X2(SAS 軟體),或是直接點 選X1, X2 為自變數進行迴歸分析。請依據此精神與上述之資料, 定義一個設計矩陣(design matirx),並說明此設計矩陣各個欄 (column)的意義。寫下線性迴歸模型,以矩陣形式列出正規方程式 (normal equation),解正規方程式求出參數估計值,列出三區域之兩 兩比較薪資差異的估計值。(14 分) 完成下面之ANOVA 表。(8 分) Analysis of Variance Table:Response:Y 變異來源 自由度 (d.f.) 平方和 (SS) 均方和 (MS) F 值 F value 迴歸 殘差 總和 8.833 計算性別薪資差異(男性對女性)的95%信賴區間,估計一個男性在 區域A的平均薪資及其95%信賴區間。最後,根據ANOVA 表格中F 值說明其代表之意義。(10 分) 三、在一個關於放射線對腫 了一項為期兩年的實驗 射線(劑量範圍為1~ 表: X(劑量)1 1 1 2 Y(壽命)104 104 104 104 根據資料,研究人員完 根據分析結果,求 (ANOVA table)並 命,說明是否認同此 變異來源 自 迴歸 殘差 總和 由於實驗時間的限制 著的狀態。試問若預 驗時間3 年),則迴歸 亦即實驗數據因經費 析結果可能產生怎樣 腫瘤及壽命的影響研究中,研究 驗。此實驗設計30 隻老鼠每週 ~10),並記錄其壽命(單位:週 2 2 3 3 … … 8 8 9 4 104 98 104 94 … … 53 56 44 完成一迴歸分析及配適圖如下: X 與Y 之相關係數,完成下面 並說明此模型是否恰當?另,預測 此預測值?(15 分) 自由度 (d.f.) 平方和 (SS) 均方和 (MS) F F va -- -- 制,事實上有8 隻老鼠壽命記錄在 預算足夠而得以完整觀察所有老鼠 歸分析的參數估計會如何變動( 費限制而對於真實之「壽命與輻射 樣的影響?(5 分) 2 40 60 80 100 Y 究人員利用老鼠設計 週照射不同劑量的放 週)。數據形式如下 9 9 9 10 10 10 4 36 56 37 26 46 面之變異數分析表 預測當X=15 時之壽 值 alue -- -- 錄在104 週時還是活 老鼠的壽命時(如實 可配合圖形說明), 輻射劑量關係」的分 4 6 8 10 X 四、一組資料內含Y 及X1~X5 等變數,資料有31 筆觀察值。為了進行變數 選取,考慮Y 對X1~X5 之一階(first order)所有可能迴歸模式。經由 分析整理得到下表: no. of variables X1 X2 X3 X4 X5 adjr2 Cp no. of variables X1 X2 X3 X4 X5 adjr2 Cp 1 0 0 0 0 1 0.142 14.5 3 1 0 1 0 1 0.371 5.4 1 0 0 1 0 0 0.142 14.5 3 1 0 0 1 1 0.361 5.8 1 0 0 0 1 0 0.14 14.6 3 0 1 1 0 1 0.294 8.8 1 1 0 0 0 0 0.014 20.8 3 0 0 1 1 1 0.277 9.6 1 0 1 0 0 0 0.008 21 3 0 1 0 1 1 0.263 10.2 2 0 0 1 0 1 0.288 8.3 3 1 1 0 0 1 0.21 12.6 2 0 0 0 1 1 0.286 8.4 3 1 1 1 0 0 0.178 14 2 1 0 0 0 1 0.189 12.9 3 1 0 1 1 0 0.169 14.5 2 1 0 1 0 0 0.185 13.1 3 1 1 0 1 0 0.156 15.1 2 1 0 0 1 0 0.176 13.5 3 0 1 1 1 0 0.128 16.3 2 0 1 0 0 1 0.163 14.1 4 1 1 1 0 1 0.377 6.1 2 0 1 1 0 0 0.137 15.3 4 1 0 1 1 1 0.361 6.7 2 0 0 1 1 0 0.126 15.8 4 1 1 0 1 1 0.343 7.5 2 0 1 0 1 0 0.115 16.4 4 0 1 1 1 1 0.322 8.4 2 1 1 0 0 0 0.021 20.7 4 1 1 1 1 0 0.164 15.3 3 1 0 1 0 1 0.371 5.4 5 1 1 1 1 1 0.401 6 以adjusted R2 為準則,排序選取最佳三個模式。(6 分) 以Mallow’s Cp 為準則,排序選取最佳三個模式。(6 分) 採用F 檢定法,說明向後消去法(Backward elimination, stay level=0.05) 準則的選模過程,並列出所選取之模式。(10 分) 除變數選擇外,針對模型Y=β0 +β1X1+β2X2+β3X3+β4X4+β5X5+ε 分析得 到另ㄧ表。請以第一列的值解釋dfb.X2(-0.154)及dffit(-0.371)的用途 及其大概的原理。(6 分) Obs. dfb.X1 dfb.X2 dfb.X3 dfb.X4 dfb.X5 dffit cov.r cook.d hat 1 -0.101 -0.154 -0.23 0.201 -0.132 -0.371 2.008 0.024 0.396 2 0.1 0.083 0.072 -0.081 -0.044 0.177 1.608 0.005 0.226 3 -1.145 2.676 2.773 -2.481 1.735 4.332 0.001 0.902 0.23 … 30 0.019 0.053 0.049 -0.046 -0.016 -0.079 1.636 0.001 0.223 31 0.063 0.07 0.037 -0.048 -0.048 -0.184 1.498 0.006 0.179