lawpalyer logo

統計 112 年迴歸分析考古題

民國 112 年(2023)統計「迴歸分析」考試題目,共 12 題 | 資料來源:考選部

0 題選擇題 + 12 題申論題

若以樣本y對x 做線性迴歸,可得到迴歸估計式 0 1 ˆ ˆ ˆyi ix     。假設x、y 之樣本平均及標準差分別為x、y 、 xs 、 ys ,樣本相關係數為r。今先將 x 、y標準化,即: * i i x x x x s   , * i i y y y y s   然後以 *y 對 *x 做線性迴歸,得到 * * 0 1 ˆi i y x       。試求:  0   ?(10 分)  1和 1ˆ的關係。(10 分) r 和 1之關係。(5 分)
10 10 10 8 8.04 9.14 7.46 6.58
X 為前測成績,Y 為後測成績。假設甲乙兩班的前、後測成績關係分別為 甲: 01 11 Y X ε      乙: 02 12 Y X ε      下表資料中G 代表班別(G = 1 為甲班,G = 0 為乙班),令XG 為X 和 G 乘積。 Y X G Y X G 5.3 4 1
8 8 8 8 6.95 8.14 6.77 5.76
3 0 10.4 9 1 15 8 0 9.2 8 1 9.4 5 0 10.1 9 1 13.1 6 0 7.3 6 1 9.1 3 0 4.3 3 1 17.7 11 0 9.7 9 1 7.3 7 0 6.3 6 1 10.2 10 0 6.6 5 1 19.4 12 0 9 9 1 13.6 9 0 我們以上表資料分別配適以下四組迴歸:M1:Y 對X 迴歸;M2:Y 對 G 迴歸;M3:Y 對X 和G 複迴歸;M4:Y 對X、G 和XG 複迴歸。變 異數分析結果如下: M1: ˆY = 1.26 + 1.203 X M2: ˆY = 11.78 - 3.94 G Source DF Adj SS F-Value P-Val Source DF Adj SS F-Value P-Val Regression 1 202.24 26.48 0.00 Regression 1 77.72 5.34 0.033 X 1 202.24 26.48 0.00 G 1 77.72 5.34 0.033 Error 18 137.49 Error 18 262.01 14.56 Total 19 339.73 M3: ˆY = 3.39 + 1.133 X - 3.26 G M4: ˆY = 2.52 + 1.251 X - 0.86 G - 0.343 XG Source DF Adj SS F-Value P-Val Source DF Adj SS F-Value P-Val Regression 2 254.79 25.50 0.000 Regression 3 258.451 16.96 0.00 X 1 177.07 35.44 0.000 X 1 141.449 27.84 0.00 G 1 52.55 10.52 0.005 G 1 0.419 0.08 0.778 Error 17 84.94 4.997 XG 1 3.658 0.72 0.409 Error 16 81.284 5.080 在顯著水準0.05 下,試求: 檢定「兩班的Y 對X 關係是否平行(斜率相同)」,即 0 11 12 01 02 1 11 12 01 02 and vs. and H H             : : 。(10 分) 檢定「兩班是否有相同之Y 對X 線性關係(相同的斜率及截距)」,即 0 11 12 01 02 1 0 and vs. H H H       : : 為非。(15 分) 三、某資料有40 個觀察值,因變數為 1 40 , , y y  ,自變數為 1 40 , , x x  ,迴歸模 式 0 1 i i i y x       。 其檢定之有效性是建立在對 i的那些假設下?(10 分) 若 1 20) ( , , x x  為男生體重, 21 40 ( ) , , x x  為女生體重,y 為其運動後 心跳頻率。已知男生體重的變異量一般較女生大。今以y 對x做簡單線 性迴歸,可能會違反中那些假設?(5 分) 若 1 10 , , x x  是10 個人第1 年之測量值, 11 20 , , x x  為其第2 年測量值, 21 30 , , x x  為其第3 年測量值,31 40 , , x x  為其第4 年測量值。以y 對x做 簡單線性迴歸的話,會違反中那些假設?(5 分)
13 13 13 8 7.58 8.74 12.74 7.71
連續變數Y 代表因變數藥效(越大代表成效越佳),自變數X 為類別變 數,代表A、B、C 三種藥物處方,三組人樣本數相同,各只接受其中一 種處方。 某軟體將X 轉成以下虛擬變數(dummy variable) 1 X 及 2 X : 1 1 0 0 X A X X B X C               當 當 當 ,及 2 0 1 0 X A X X B X C               當 當 當 然後以Y 對 1 X 及 2 X 配適迴歸模式: 0 1 1 2 2 ε Y X X       。請就以 下檢定結果比較三種藥物之藥效(如:何者顯著較佳,何者間無顯著 差別)。(15 分) Term Coef SE Coef t-Value P-Value Constant 8.200 0.732 11.20 0.000 1 X -2.10 2.10 -1 0.32 2 X 4.50 1.03 4.35 0.000 另一種軟體轉虛擬變數的方式如下: * 1 1 0 1 X A X X B X C                當 當 當 ,及 * 2 0 1 1 X A X X B X C                當 當 當 然後以Y 對 * 1 X 及 * 2 X 配適迴歸模式: * * 1 1 2 2 ε Y X X     。請就以下檢 定結果比較三種藥物之藥效。(15 分) Term Coef SE Coef t-Value P-Value Constant 8.200 0.732 11.20 0.000 * 1 X -2.64 1.01 -2.61 0.009 * 2 X 3.50 1.01 3.46 0.000
9 9 9 8 8.81 8.77 7.11 8.84
11 11 11 8 8.33 9.26 7.81 8.47
14 14 14 8 9.96 8.10 8.84 7.04
6 6 6
7.24 6.13 6.08 5.25 8 4 4 4 19 4.26 3.10 5.39 12.50 9 12 12 12 8 10.84 9.13 8.15 5.56 10 7 7 7 8 4.82 7.26 6.42 7.91 11 5 5 5 8 5.68 4.74 5.73 6.89 其中「x1, x2, x3, x4」依序分別表示第一組數據集的解釋變數、第二組數據集 的解釋變數、第三組數據集的解釋變數、第四組數據集的解釋變數。「y1, y2, y3, y4」依序分別表示第一組數據集的反應變數、第二組數據集的反應變數、 第三組數據集的反應變數、第四組數據集的反應變數。有了數據之後,在假 設簡單線性迴歸模型之前,通常會先繪製散佈圖,但這一回我們先配適這個 模型「y = A+ Bx」,其中「y」是反應變數、「A」是截距、「B」是斜率、「x」 是解釋變數。 答題時,請用「A1」代表第一組數據集上述模型「A」的估計值、「B1」代表 第一組數據集上述模型「B」的估計值;用「A2」代表第二組數據集上述模 型「A」的估計值、「B2」代表第二組數據集上述模型「B」的估計值;用「A3」 代表第三組數據集上述模型「A」的估計值、「B3」代表第三組數據集上述模 型「B」的估計值;用「A4」代表第四組數據集上述模型「A」的估計值、「B4」 代表第四組數據集上述模型「B」的估計值。 為了估計「A(截距)」和「B(斜率)」,有下列4組數據集。(請注意,欄位 名稱x和y是原始數據、xx表示解釋變數的平方、yy表示反應變數的平方、xy 表示解釋變數乘以反應變數。「總和」為其上方11個數字的加總) 第一組數據集: x y xx yy xy 1 10 8.04 100 64.6416 80.40 2 8 6.95 64 48.3025 55.60 3 13 7.58 169 57.4564 98.54 4 9 8.81 81 77.6161 79.29 5 11 8.33 121 69.3889 91.63 6 14 9.96 196 99.2016 139.44 7 6 7.24 36 52.4176 43.44 8 4 4.26 16 18.1476 17.04 9 12 10.84 144 117.5056 130.08 10 7 4.82 49 23.2324 33.74 11 5 5.68 25 32.2624 28.40 總和 99 82.51 1001 660.1727 797.60 第二組數據集: x y xx yy xy 1 10 9.14 100 83.5396 91.40 2 8 8.14 64 66.2596 65.12 3 13 8.74 169 76.3876 113.62 4 9 8.77 81 76.9129 78.93 5 11 9.26 121 85.7476 101.86 6 14 8.10 196 65.6100 113.40 7 6 6.13 36 37.5769 36.78 8 4 3.10 16 9.6100 12.40 9 12 9.13 144 83.3569 109.56 10 7 7.26 49 52.7076 50.82 11 5 4.74 25 22.4676 23.70 總和 99 82.51 1001 660.1763 797.59 第三組數據集: x y xx yy xy 1 10 7.46 100 55.6516 74.60 2 8 6.77 64 45.8329 54.16 3 13 12.74 169 162.3076 165.62 4 9 7.11 81 50.5521 63.99 5 11 7.81 121 60.9961 85.91 6 14 8.84 196 78.1456 123.76 7 6 6.08 36 36.9664 36.48 8 4 5.39 16 29.0521 21.56 9 12 8.15 144 66.4225 97.80 10 7 6.42 49 41.2164 44.94 11 5 5.73 25 32.8329 28.65 總和 99 82.50 1001 659.9762 797.47 第四組數據集: x y xx yy xy 1 8 6.58 64 43.2964 52.64 2 8 5.76 64 33.1776 46.08 3 8 7.71 64 59.4441 61.68 4 8 8.84 64 78.1456 70.72 5 8 8.47 64 71.7409 67.76 6 8 7.04 64 49.5616 56.32 7 8 5.25 64 27.5625 42.00 8 19 12.50 361 156.2500 237.50 9 8 5.56 64 30.9136 44.48 10 8 7.91 64 62.5681 63.28 11 8 6.89 64 47.4721 55.12 總和 99 82.51 1001 660.1325 797.58 請回答下列問題: 一、請利用上述表格計算解釋變數與反應變數之間的相關係數到小數點第四 位,並且由小到大排序計算結果。(假設第一組數據集的相關係數為「r1」、 第二組數據集的相關係數為「r2」、第三組數據集的相關係數為「r3」、第 四組數據集的相關係數為「r4」。)(20分) 二、請利用上述表格針對模型「y = A+ Bx」,計算各個數據集估計方程式的決 定係數(coefficient of determination)到小數點第四位,並且由小到大排序 計算結果。(假設第一組數據集的決定係數為「R21」、第二組數據集的決 定係數為「R22」、第三組數據集的決定係數為「R23」、第四組數據集的 決定係數為「R24」。)(20分) 三、請利用上述表格計算各個數據集估計模型「y = A + Bx」的截距到小數點 第四位,並且由小到大排序計算結果。(20分) 四、請利用上述表格計算各個數據集估計模型「y = A + Bx」的斜率到小數點 第五位,並且由小到大排序計算結果。(20分) 五、針對第三組數據集提出決定係數(coefficient of determination)最接近1.0的 模型。(提示:繪製這一組數據集的散佈圖,並刪除一個影響點。)(20分)