lawpalyer logo

資料由法律人 LawPlayer整理提供·橫跨多種國考 / 法律人 LawPlayer 編輯整理

迴歸分析考古題|歷屆國考試題彙整

橫跨多種國家考試的迴歸分析歷屆試題(選擇題 + 申論題)

年份:

統計 100 題

若以樣本y對x 做線性迴歸,可得到迴歸估計式 0 1 ˆ ˆ ˆyi ix     。假設x、y 之樣本平均及標準差分別為x、y 、 xs 、 ys ,樣本相關係數為r。今先將 x 、y標準化,即: * i i x x x x s   , * i i y y y y s   然後以 *y 對 *x 做線性迴歸,得到 * * 0 1 ˆi i y x       。試求:  0   ?(10 分)  1和 1ˆ的關係。(10 分) r 和 1之關係。(5 分)
10 10 10 8 8.04 9.14 7.46 6.58
X 為前測成績,Y 為後測成績。假設甲乙兩班的前、後測成績關係分別為 甲: 01 11 Y X ε      乙: 02 12 Y X ε      下表資料中G 代表班別(G = 1 為甲班,G = 0 為乙班),令XG 為X 和 G 乘積。 Y X G Y X G 5.3 4 1
8 8 8 8 6.95 8.14 6.77 5.76
3 0 10.4 9 1 15 8 0 9.2 8 1 9.4 5 0 10.1 9 1 13.1 6 0 7.3 6 1 9.1 3 0 4.3 3 1 17.7 11 0 9.7 9 1 7.3 7 0 6.3 6 1 10.2 10 0 6.6 5 1 19.4 12 0 9 9 1 13.6 9 0 我們以上表資料分別配適以下四組迴歸:M1:Y 對X 迴歸;M2:Y 對 G 迴歸;M3:Y 對X 和G 複迴歸;M4:Y 對X、G 和XG 複迴歸。變 異數分析結果如下: M1: ˆY = 1.26 + 1.203 X M2: ˆY = 11.78 - 3.94 G Source DF Adj SS F-Value P-Val Source DF Adj SS F-Value P-Val Regression 1 202.24 26.48 0.00 Regression 1 77.72 5.34 0.033 X 1 202.24 26.48 0.00 G 1 77.72 5.34 0.033 Error 18 137.49 Error 18 262.01 14.56 Total 19 339.73 M3: ˆY = 3.39 + 1.133 X - 3.26 G M4: ˆY = 2.52 + 1.251 X - 0.86 G - 0.343 XG Source DF Adj SS F-Value P-Val Source DF Adj SS F-Value P-Val Regression 2 254.79 25.50 0.000 Regression 3 258.451 16.96 0.00 X 1 177.07 35.44 0.000 X 1 141.449 27.84 0.00 G 1 52.55 10.52 0.005 G 1 0.419 0.08 0.778 Error 17 84.94 4.997 XG 1 3.658 0.72 0.409 Error 16 81.284 5.080 在顯著水準0.05 下,試求: 檢定「兩班的Y 對X 關係是否平行(斜率相同)」,即 0 11 12 01 02 1 11 12 01 02 and vs. and H H             : : 。(10 分) 檢定「兩班是否有相同之Y 對X 線性關係(相同的斜率及截距)」,即 0 11 12 01 02 1 0 and vs. H H H       : : 為非。(15 分) 三、某資料有40 個觀察值,因變數為 1 40 , , y y  ,自變數為 1 40 , , x x  ,迴歸模 式 0 1 i i i y x       。 其檢定之有效性是建立在對 i的那些假設下?(10 分) 若 1 20) ( , , x x  為男生體重, 21 40 ( ) , , x x  為女生體重,y 為其運動後 心跳頻率。已知男生體重的變異量一般較女生大。今以y 對x做簡單線 性迴歸,可能會違反中那些假設?(5 分) 若 1 10 , , x x  是10 個人第1 年之測量值, 11 20 , , x x  為其第2 年測量值, 21 30 , , x x  為其第3 年測量值,31 40 , , x x  為其第4 年測量值。以y 對x做 簡單線性迴歸的話,會違反中那些假設?(5 分)
13 13 13 8 7.58 8.74 12.74 7.71
9 9 9 8 8.81 8.77 7.11 8.84
連續變數Y 代表因變數藥效(越大代表成效越佳),自變數X 為類別變 數,代表A、B、C 三種藥物處方,三組人樣本數相同,各只接受其中一 種處方。 某軟體將X 轉成以下虛擬變數(dummy variable) 1 X 及 2 X : 1 1 0 0 X A X X B X C               當 當 當 ,及 2 0 1 0 X A X X B X C               當 當 當 然後以Y 對 1 X 及 2 X 配適迴歸模式: 0 1 1 2 2 ε Y X X       。請就以 下檢定結果比較三種藥物之藥效(如:何者顯著較佳,何者間無顯著 差別)。(15 分) Term Coef SE Coef t-Value P-Value Constant 8.200 0.732 11.20 0.000 1 X -2.10 2.10 -1 0.32 2 X 4.50 1.03 4.35 0.000 另一種軟體轉虛擬變數的方式如下: * 1 1 0 1 X A X X B X C                當 當 當 ,及 * 2 0 1 1 X A X X B X C                當 當 當 然後以Y 對 * 1 X 及 * 2 X 配適迴歸模式: * * 1 1 2 2 ε Y X X     。請就以下檢 定結果比較三種藥物之藥效。(15 分) Term Coef SE Coef t-Value P-Value Constant 8.200 0.732 11.20 0.000 * 1 X -2.64 1.01 -2.61 0.009 * 2 X 3.50 1.01 3.46 0.000
11 11 11 8 8.33 9.26 7.81 8.47
14 14 14 8 9.96 8.10 8.84 7.04
6 6 6
7.24 6.13 6.08 5.25 8 4 4 4 19 4.26 3.10 5.39 12.50 9 12 12 12 8 10.84 9.13 8.15 5.56 10 7 7 7 8 4.82 7.26 6.42 7.91 11 5 5 5 8 5.68 4.74 5.73 6.89 其中「x1, x2, x3, x4」依序分別表示第一組數據集的解釋變數、第二組數據集 的解釋變數、第三組數據集的解釋變數、第四組數據集的解釋變數。「y1, y2, y3, y4」依序分別表示第一組數據集的反應變數、第二組數據集的反應變數、 第三組數據集的反應變數、第四組數據集的反應變數。有了數據之後,在假 設簡單線性迴歸模型之前,通常會先繪製散佈圖,但這一回我們先配適這個 模型「y = A+ Bx」,其中「y」是反應變數、「A」是截距、「B」是斜率、「x」 是解釋變數。 答題時,請用「A1」代表第一組數據集上述模型「A」的估計值、「B1」代表 第一組數據集上述模型「B」的估計值;用「A2」代表第二組數據集上述模 型「A」的估計值、「B2」代表第二組數據集上述模型「B」的估計值;用「A3」 代表第三組數據集上述模型「A」的估計值、「B3」代表第三組數據集上述模 型「B」的估計值;用「A4」代表第四組數據集上述模型「A」的估計值、「B4」 代表第四組數據集上述模型「B」的估計值。 為了估計「A(截距)」和「B(斜率)」,有下列4組數據集。(請注意,欄位 名稱x和y是原始數據、xx表示解釋變數的平方、yy表示反應變數的平方、xy 表示解釋變數乘以反應變數。「總和」為其上方11個數字的加總) 第一組數據集: x y xx yy xy 1 10 8.04 100 64.6416 80.40 2 8 6.95 64 48.3025 55.60 3 13 7.58 169 57.4564 98.54 4 9 8.81 81 77.6161 79.29 5 11 8.33 121 69.3889 91.63 6 14 9.96 196 99.2016 139.44 7 6 7.24 36 52.4176 43.44 8 4 4.26 16 18.1476 17.04 9 12 10.84 144 117.5056 130.08 10 7 4.82 49 23.2324 33.74 11 5 5.68 25 32.2624 28.40 總和 99 82.51 1001 660.1727 797.60 第二組數據集: x y xx yy xy 1 10 9.14 100 83.5396 91.40 2 8 8.14 64 66.2596 65.12 3 13 8.74 169 76.3876 113.62 4 9 8.77 81 76.9129 78.93 5 11 9.26 121 85.7476 101.86 6 14 8.10 196 65.6100 113.40 7 6 6.13 36 37.5769 36.78 8 4 3.10 16 9.6100 12.40 9 12 9.13 144 83.3569 109.56 10 7 7.26 49 52.7076 50.82 11 5 4.74 25 22.4676 23.70 總和 99 82.51 1001 660.1763 797.59 第三組數據集: x y xx yy xy 1 10 7.46 100 55.6516 74.60 2 8 6.77 64 45.8329 54.16 3 13 12.74 169 162.3076 165.62 4 9 7.11 81 50.5521 63.99 5 11 7.81 121 60.9961 85.91 6 14 8.84 196 78.1456 123.76 7 6 6.08 36 36.9664 36.48 8 4 5.39 16 29.0521 21.56 9 12 8.15 144 66.4225 97.80 10 7 6.42 49 41.2164 44.94 11 5 5.73 25 32.8329 28.65 總和 99 82.50 1001 659.9762 797.47 第四組數據集: x y xx yy xy 1 8 6.58 64 43.2964 52.64 2 8 5.76 64 33.1776 46.08 3 8 7.71 64 59.4441 61.68 4 8 8.84 64 78.1456 70.72 5 8 8.47 64 71.7409 67.76 6 8 7.04 64 49.5616 56.32 7 8 5.25 64 27.5625 42.00 8 19 12.50 361 156.2500 237.50 9 8 5.56 64 30.9136 44.48 10 8 7.91 64 62.5681 63.28 11 8 6.89 64 47.4721 55.12 總和 99 82.51 1001 660.1325 797.58 請回答下列問題: 一、請利用上述表格計算解釋變數與反應變數之間的相關係數到小數點第四 位,並且由小到大排序計算結果。(假設第一組數據集的相關係數為「r1」、 第二組數據集的相關係數為「r2」、第三組數據集的相關係數為「r3」、第 四組數據集的相關係數為「r4」。)(20分) 二、請利用上述表格針對模型「y = A+ Bx」,計算各個數據集估計方程式的決 定係數(coefficient of determination)到小數點第四位,並且由小到大排序 計算結果。(假設第一組數據集的決定係數為「R21」、第二組數據集的決 定係數為「R22」、第三組數據集的決定係數為「R23」、第四組數據集的 決定係數為「R24」。)(20分) 三、請利用上述表格計算各個數據集估計模型「y = A + Bx」的截距到小數點 第四位,並且由小到大排序計算結果。(20分) 四、請利用上述表格計算各個數據集估計模型「y = A + Bx」的斜率到小數點 第五位,並且由小到大排序計算結果。(20分) 五、針對第三組數據集提出決定係數(coefficient of determination)最接近1.0的 模型。(提示:繪製這一組數據集的散佈圖,並刪除一個影響點。)(20分)
一位統計分析師想瞭解身高( iY ,以英寸為單位)是否可以用手掌張 開長度( 1 X ,以公分為單位)和性別(
3.1 4.1 1 9.8
3.5 3.9 1 12.6
X ,男性是1,女性是0)來 預測?他收集66 名大學生為樣本。所配適的線性迴歸模型如下: 0 1 1 2 2 , 1, , . i i i i Y X X i n           請依據表1 回答下列問題。 表1: ANOVA Source Sum of Squares DF Mean square F test Regression 840.8436 2 Error (1) (3) (5) (Lack of fit) (2) (4) (Pure error) 283.8476 45 Total 1220.4394 65 請計算表1 中(1)−(5)所列的線性迴歸的ANOVA 相關訊息。(10 分) 在顯著水準5%下,請檢定身高是否與手掌張開長度 1 ( ) X 和性別 2 ( ) X 有線性關係存在。請列出虛無假設/對立假設、檢定統計量及 決策法則。在無需查表之下,你的建議結論為何?(5 分) 在顯著水準5%下,請檢定線性迴歸模型是否有顯著的缺適(lack of fit)?以了解線性迴歸模型是否足以描述身高與手掌張開長度 1 ( ) X 和性別 2 ( ) X 之間的關係。請列出虛無假設/對立假設、檢定統 計量及決策法則。在無需查表之下,你的建議結論為何?請說明缺 適檢定所需要之假設。(10 分) 二、一位統計分析師分析奧林匹克男子田徑短跑200 公尺數據,包含1900 年 至2020 年間舉行的28 次男子200 公尺奧林匹克短跑比賽獲金牌的秒 數,其中第一次和第二次世界大戰期間沒有舉辦奧運會,而2020 年奧林 匹克運動會因為COVID-19 疫情實際是2021 年在日本東京舉行。因此 資料包含year(以年為單位)和Y(以秒為單位),其散布圖在圖1。 圖1 奧林匹克年份和男子田徑短跑200 公尺秒數散布圖 這位統計分析師重新定義變數,他把“西元年(year)”平減1963,並 定義新的解釋變數X,也就是X=year−1963。樣本相關資訊如下,其 中n 為樣本數,請依據這些資訊回答問題。 1 2 2 1 1 0.1429, 20.5582, ( - )( - )= 888.2171, ( - ) =36859.4286, ( - ) 24.3354 n XY i i i n n XX i YY i i i X Y S X X Y Y S X X S Y Y              請計算( , ) X Y 的皮爾森相關係數。(5 分) 該統計分析師配適模型 0 1 i i i Y X       ,此處 i是誤差項。請寫出 以最小平方估計法所得到的估計迴歸線,並推導共變異數 0ˆ和 1ˆ, 也就是 0 1 ˆ ˆ ( , ) Cov  。(10 分) 在顯著水準 0.05  之下,請檢定 0 1 : 0 H  是否顯著?請詳述檢 定統計量之值、決策法則和結論。請問年份和獲金牌的秒數之間是 否存在線性關係?以此資料是否可以推論人類在田徑短跑越跑越 快?t 分配臨界值,0.025 0.025 (26) 2.0555, (27) 2.0518 t t   。(10 分)
(1)
(5)
(2)
(1)
(5) 10 分
(26)
(27) 10 分
4.8 4.7 1 11.9
一位統計分析師受託分析20 名年齡40~60 歲高血壓患者的血壓相關 數據,以評估可能影響血壓的重要因素,資料描述如下: 血壓(Y,反應變數,以mm Hg 為單位),年齡( 1 X ,以年為單位), 重量( 2 X ,公斤),體表面積( 3 X ,平方公尺),高血壓病史(
X , 以年為單位),基礎脈搏(
3.1 3.6 1 11.1
X ,以每分鐘為單位),壓力指數(
5.5 5.1 1 9.3
X , 0−100 為範圍)。部分統計套裝軟體輸出結果在表2 和表3。 表2 反應變數 5個解釋變數 判定係數ܴ௝ ଶ X1 X2-X6 0.451 X2 X1, X3-X6 0.925 X3 X1-X2, X4-X6 0.905 X4 X1-X3, X5-X6 0.196 X5 X1-X4, X6 0.754 X6 X1-X5 0.416 表3 解釋變數 Type I SS 偏判定係數 X1 SSR(X1) 243.266 ܴ௒,௑భ ଶ 0.4344 X2 SSR(X2|X1) 306.886 ܴ௒,௑మ|௑భ ଶ 0.96891 X3 SSR(X3|X1,X2) 0.765 ܴ௒,௑య|௑భ,௑మ ଶ 0.07763 X4 SSR(X4|X1,X2,X3) 0.250 ܴ௒,௑ర|௑భ,௑మ,௑య ଶ 0.02755 X5 SSR(X5|X1,X2,X3,X4) 0.965 ܴ௒,௑ఱ|௑భ,௑మ,௑య,௑ర ଶ 0.1092 X6 SSR(X6|X1,X2,X3,X4,X5) 1.023E-04 ܴ௒,௑ల|௑భ,௑మ,௑య,௑ర,௑ఱ ଶ 1.3E-05 這位分析師一開始採用(1)式中模型1 的複迴歸分析,他擔心有多 重共線性(Multicollinearity)問題。 模型1: 1 1 2 2 3 3 4 4 5 5 6 6 , 1, , . (1) i i i i i i i i Y X X X X X X i n                … 請協助這位分析師利用表2 判斷是否有嚴重的多重共線性,並說明 模型1 是否合適?如果不合適,請詳細說明原因和判斷方法。(5 分) 表3 第二欄的定義,若SSR(Xi|Xj)代表給定Xj 已在模型中,Xi 加 入模型中的額外平方和(extra sum of squares)。請計算SSR (X1,X2,X3,X4,X5,X6)。最後一欄符號代表偏判定係數(coefficient of partial determination)。請說明偏判定係數 3 1 2 2 , , Y X X X R 的計算式及其意 義。請利用表3 結果,建議分析師採用那些變數,詳細說明理由和 判斷方法。(10 分) 請利用表3 結果及SST=560,SSR(X1,X2,X5)=551.568,計算SSR (X5|X1,X2)和偏判斷係數 5 1 2 2 , , Y X X X R 。(10 分) 四、一位教師擬瞭解學生的測試表現是否受智商和教學方法所影響,以 60 名學生為實驗對象,在採用三種教學方法之下,獲得測試成績Y, 智商X。前兩種教學方法M1, M2 變數定義如下。 1 2 1 1 2 0 0 M M         教學法1 教學法 其他 其他 這位教師分別考慮的模型如下: 模型1 0 1 , 1, , . i i i Y X i n        … 模型2 0 2 1 3 2 , 1, , . i i i i Y M M i n          … 模型3 0 1 2 1 3 2 , 1, , . i i i i i Y X M M i n            … 請使用表4 部分電腦輸出3 個模型的變異數分析(ANOVA, Analysis of Variance)報表來回答下列問題。 在考慮模型3 之下,請檢定智商X 該解釋變數對於解釋測試成績 是否有顯著的解釋能力。請用顯著水準 0.05 = 檢定並詳述檢定統 計量之值、決策法則、結論和所需之假設。t 分配臨界值, 0.975(56) 2.0032 t  。(10 分) 在考慮模型3 之下,請檢定教學方法M1 和M2 這兩個虛擬變數是否 在模型3 對預測學生測試成績有效應。請在顯著水準 0.05 = ,檢定 0 2 3 0 H   : = = ,請詳述檢定統計量之值、決策法則、結論和所需之假 設。F 分配左尾臨界值,0.95 0.95 , (1, 56) = 4.0130 (2, 56) = 3.1619 F F 。 (10 分) 請使用表4 說明那一種教學方法最能提升測試成績,須說明論述。 (5 分) 表4 模型1 ANOVA表 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 1 816.928 816.928 14.72 0.0003 Error 58 3219.255 55.504 Total 59 4036.183 模型2 ANOVA表 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 2 2880.033 1440.017 71 P-value Error 57 1156.150 20.283 Total 59 4036.183 模型3 ANOVA表和參數估計 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 3 3512.745 1170.915 125.27 <.0001 Error 56 523.438 9.347 Total 59 4036.183 模型3參數估計 Variable DF Estimate Standard Error t value P-value Intercept 1 56.024 4.306 13.01 <.0001 X 1 0.350 0.043 8.14 <.0001 M1 1 -15.770 0.967 -16.3 <.0001 M2 1 -11.943 0.972 -12.28 <.0001
(1)
(1) 5 分
(56) 10 分
5.0 4.1 1 12.8
4.8 3.3 1 12.8
4.3 5.2 1 12.0 9 3.9 2.9 3 13.6 10 4.7 3.9 1 13.9 11 4.5 3.6 3 14.4 12 4.3 3.6 2 12.3 13 7.0 4.1 3 16.1 14 6.7 3.7 3 16.1 15 5.8 4.1 3 15.5 16 5.6 4.4 3 15.5 17 4.8 4.6 3 13.8 18 5.5 4.1 3 13.8 19 4.3 3.1 1 11.3 20 3.4 3.4 2 10.9 21 6.6 4.8 3 15.1 22 5.3 3.8 3 13.5 23 5.0 3.7 2 10.8 24 4.1 4.0 2 9.5 25 5.7 4.7 3 12.7 26 4.7 4.9 2 11.6 27 5.1 5.1 1 11.7 28 5.0 5.1 2 11.9 29 5.0 4.4 2 10.8 30 2.9 3.9 2 8.5 總和 144.00 123.90 60 375.60 總平方和 722.02 523.03 142 4821.30 「總和」與「總平方和」表示該變數之值的加總及取平方後之加總。 定義區域ܺଷ之指標變數如下: ܦଵ= ቊ 1 若該茶園屬於區域1 0 其他 、ܦଶ= ቊ 1 若該茶園屬於區域2 0 其他 、ܦଷ= ቊ 1 若該茶園屬於區域3 0 其他 以茶葉每10 公克之價格為反應變數,考慮迴歸模型如下: ܻ= ߚ଴+ ߚଵܺଷ+ ߝ 模型A ܻ= ߚ଴+ ߚଵܦଶ+ ߚଶܦଷ+ ߝ 模型B ܻ= ߚ଴+ ߚଵܦଵ+ ߚଶܦଶ+ ߝ 模型C ܻ= ߚ଴+ ߚଵܦଵ+ ߚଶܦଶ+ ߚଷܦଷ+ ߝ 模型D ܻ= ߚଵܦଵ+ ߚଶܦଶ+ ߚଷܦଷ+ ߝ 模型E ߝ為隨機誤差項。 說明模型A、B、C、D 及E 所表達的意義,並決定那些模型是較合適的。 (10 分) 依據模型B,得到以下估計結果: Estimate Std Err Intercept 11.7455 0.3789 ܦଶ -0.9580 0.5840 ܦଷ 2.8091 0.5359 R² = 0.6410 試詳細說明係數ߚଶ之估計值的意義,並計算此模型之迴歸標準誤的 估計。(8 分) 試寫出模型C、D 及E 之所有迴歸係數的估計值。(12 分) 承上題,令模型F 為 ܻ= ߚ଴+ ߚଵܺଵ+ ߚଶܺଶ+ ߚଷܦଶ+ ߚସܦଷ+ ߝ 。 依據模型F,得到以下估計結果: Estimate Std Err Intercept 10.6039 1.4918 ܺଵ 0.8881 0.2752 ܺଶ -0.6561 0.3686 ܦଶ -0.9285 0.5097 ܦଷ 1.6658 0.5853 R² = 0.7473 若有一茶園位於區域1,且其因素甲與因素乙的分數皆為4.5。該品種 之茶葉包裝方式為500 公克一盒,請估計一盒的售價。(4 分) 若將反應變數的單位改為茶葉每公斤之價格,寫出此迴歸模型之係數 估計結果及其標準誤(如表格中之Estimate 與Std Err)。(8 分) 在顯著水準為0.05 下,檢定ߚଵ與ߚଶ是否同時等於0。(8 分) 若迴歸分析得到以下變異數分析(Analysis of variance, ANOVA)表: Source of variation Degrees of freedom Sum of squares Mean square F Regression (1) (6) (8) (13) ܺଵ (2) 33.2 (9) (14) ܺଶ|ܺଵ (3) 15.3 (10) (15) ܺଷ|ܺଵ, ܺଶ (4) 22.2 (11) (16) Error (5) (7) (12) Total 29 106.3 請寫出ANOVA 表中(1)至(16)的值。(16 分) 在顯著水準為0.05 下,詳述ANOVA 表中(13)至(16)所提供之檢 定的意義與結果。(14 分) 考慮p 個解釋變數(ܺଵ、ܺଶ、… 、ܺ௣),n 個觀測值的複迴歸模型如下: ܻ௜= ߚ଴+ ߚଵܺଵ௜+ ߚଶܺଶ௜+ … + ߚ௣ܺ௣௜+ ߝ௜, i=1, 2, …, n 試以上述模型詳述共線性的意義,當共線性現象發生時所可能導致之 影響。(10 分) 詳述變異膨脹因子(variance inflation factor, VIF)之定義及其判斷準則。 (10 分) 【附表】F 分配表
(1)
(8)
(2)
(9)
(3)
(10)
(4)
(11)
(5)
(12)
(1)
(16) 16 分
(13)
(16) 14 分
某地區房屋成交紀錄包括了房價及坪數等資訊共70 筆,以坪數為預 測變數,簡單線性迴歸預測房價的殘差顯示,變異數並不是常數,如 圖1-1: 圖1-1轉換前殘差圖 圖1-2轉換後殘差圖 將資料依房價排序後,每5筆計算房價平均數及標準差,並分別取其自然 對數(LN)值,共14筆,其敘述性統計及相關係數如表1-1a、1-1b。 表1-1a 敘述統計 個數 平均數 標準差 房子坪數 70 57.7 22.5 房價 70 4197207.0 2574255.1 平均房價 14 6191190.0 3441255.7 房價標準差 14 3383348.3 2156645.7 LN(平均房價) 14 15.471 .640 LN(房價標準差) 14 14.809 .729 有效的N(完全排除) 14 表1-1b 相關 房子 坪數 房價 平均 房價 房價 標準差 LN(平均 房價) LN(房價 標準差) 房子坪數 Pearson 相關 個數 1 70 .859** 70 .379 14 .279 14 .469 14 .368 14 房價 Pearson 相關 個數 .859** 70 1 70 .975** 14 .772** 14 .984** 14 .803** 14 平均房價 Pearson 相關 個數 .379 14 .975** 14 1 14 .766** 14 .951** 14 .785** 14 房價標準差 Pearson 相關 個數 .279 14 .772** 14 .766** 14 1 14 .779** 14 .973** 14 LN (平均房價) Pearson 相關 個數 .469 14 .984** 14 .951** 14 .779** 14 1 14 .811** 14 LN (房價標準差) Pearson 相關 個數 .368 14 .803** 14 .785** 14 .973** 14 .811** 14 1 14 **.在顯著水準為0.01 時(雙尾),相關顯著。 運用上述資訊,Box-Cox 轉換函數進行房價轉換後,以坪數預測房價 轉換的殘差,如圖1-2,迴歸模式的變異數分析表及係數預測的推論 如表1-2a、表1-2b。 表1-2a Anovaa 模式 平方和 df 平均平方和 F 顯著性 1 迴歸 17.418 1 17.418 262.236 .000b 殘差 4.517 68 .066 總數 21.935 69 a.依變數:房價轉換 b.預測變數:(常數),房子坪數 表1-2b 係數a 模式 未標準化係數 標準化 係數 t 顯著性 相關 B 之 估計值 標準 誤差 Beta 分配 零階 偏 部分 1 (常數) 13.803 .085 161.874 .000 房子 坪數 .022 .001 .891 16.194 .000 .891 .891 .891 a.依變數:房價轉換 請運用表1-1a、1-1b 的資訊,說明將使用的統計方法,並提出您建 議的Box-Cox 轉換函數為何?(20 分) 轉換後的模式適切性,有那些假設需要驗證?圖1-2 可以驗證那一 項假設?(10 分) 假設轉換後的模式適切性完全符合,請運用表1-2a、表1-2b 的資 訊,寫出房子坪數對房價轉換的預測模式,並依照您在第題的建 議,改寫出房子坪數對於房價的預測模式,並說明坪數每增加一單 位對房價的影響。(10 分)
下表為中華民國110 年10 月底人口數、性別比例及人口密度統計表。 縣市 土地面積 (平方公里) 人口數 性別比例(每百女 子所當男子數) 人口密度(每平 方公里人口數) 總計 男 女 新北市 2,052.57 4,014,869 1,960,442 2,054,427 95.43 1,956.02 臺北市 271.7997 2,538,299 1,208,385 1,329,914 90.86 9,338.86 桃園市 1,220.95 2,272,663 1,125,386 1,147,277 98.09 1,861.38 臺中市 2,214.90 2,815,477 1,382,072 1,433,405 96.42 1,271.15 臺南市 2,191.65 1,864,799 928,682 936,117 99.21 850.86 高雄市 2,951.85 2,749,293 1,355,140 1,394,153 97.20 931.38 宜蘭縣 2,143.63 451,175 227,222 223,953 101.46 210.47 新竹縣 1,427.54 574,806 293,417 281,389 104.27 402.66 苗栗縣 1,820.31 538,940 277,786 261,154 106.37 296.07 彰化縣 1,074.40 1,257,033 638,686 618,347 103.29 1,169.99 南投縣 4,106.44 485,983 248,298 237,685 104.47 118.35 雲林縣 1,290.83 671,182 346,966 324,216 107.02 519.96 嘉義縣 1,903.64 494,293 256,417 237,876 107.79 259.66 屏東縣 2,775.60 805,717 410,328 395,389 103.78 290.29 臺東縣 3,515.25 213,718 109,715 104,003 105.49 60.80 花蓮縣 4,628.57 321,971 162,726 159,245 102.19 69.56 澎湖縣 126.8641 106,147 54,656 51,491 106.15 836.7 基隆市 132.7589 364,766 181,861 182,905 99.43 2,747.58 新竹市 104.1526 452,844 223,672 229,172 97.60 4,347.89 嘉義市 60.0256 265,208 128,102 137,106 93.43 4,418.25 金門縣 151.656 141,180 70,367 70,813 99.37 930.92 連江縣 28.8 13,516 7,822 5,694 137.37 469.31 若性別比例為X,人口密度為Y,且∑ܺ=2,256.69、∑ܻ=33,358.11、 ∑ܺଶ=233,202.3、∑ܻଶ=147,581,075 及∑ܻܺ=3,226,744,計算性別比例 與人口密度之相關係數。(10 分)
某研究團隊隨機觀察兩歲內男童的月齡(Month)與體重(weight) 的數據共125 筆,0~24 月齡各5 筆。月齡vs 體重的散布圖如下。 研究團隊考慮以月齡的4 次多項式迴歸模式來預測體重。預測變數為 中心化月齡(ݔ= Month_c = Month −mean(Month)),考慮一~四 次多項式模式,如下: M1:weight = ߚ଴+ ߚଵݔ+ ε M2:weight = ߚ଴+ ߚଵݔ+ ߚଶݔଶ+ ε M3:weight = ߚ଴+ ߚଵݔ+ ߚଶݔଶ+ ߚଷݔଷ+ ε M4:weight = ߚ଴+ ߚଵݔ+ ߚଶݔଶ+ ߚଷݔଷ+ ߚସݔସ+ ε 各模式的變異數分析表如下: 在5%的顯著水準下,請依序檢定下列虛無假說,ܪ଴ଶ:ߚଶ= ߚଷ= ߚସ= 0、ܪ଴ଷ:ߚଷ= ߚସ= 0、ܪ଴ସ:ߚସ= 0,直到不拒絕ܪ଴௜,以確定 多項式迴歸模式的最高次為何。(30 分)(提示:若拒絕 ܪ଴௜, ݂݋ݎ݈݈ܽ݅≤ܽ,且不拒絕ܪ଴௜, ݂݋ݎ݈݈ܽ݅> ܽ,則多項式模式最高 次為ܽ) 請根據上述結果寫出多項式預測模式,並預測月齡為10 月的男童 體重,假設月齡為10 月的男童體重估計變異數為 2 ˆ ( ) 0.298 s Y  ,請 求出該男童體重的95%預測區間。(15 分) 由於每個月齡都有5 筆資料,純誤差平方和(pure error sum of square, SSPE)為25.54,請根據的結果,在5%的顯著水準下, 完成該模式適合度檢定(test for lack of fit)。(15 分) 平方和 df 平均平方和 F 顯著性 M1 迴歸 567.658 1 567.658 1008.633 .000 殘差 69.224 123 .563 總數 636.883 124 M2 迴歸 594.740 2 297.870 862.311 .000 殘差 42.143 122 .345 總數 636.883 124 M3 迴歸 601.539
依題一的資料,以人口密度作為反應變數,其他皆為解釋變數進行迴歸 模型分析,得到以下參數估計結果: Estimate Std error (Intercept) 10,890.376 3,076.995 土地面積 -0.550 0.178 人口數總計 0.053 0.0101 人口數男 -0.110 0.022 人口數女 NA NA 性別比例 -76.789 28.760 參數估計表中之「NA」表示估計結果是不可得到的;詳述「人口數女」 之參數估計結果為「NA」之原因。(5 分) 詳述「土地面積」之迴歸係數估計值的意義。(5 分) 在顯著水準為0.01 下,檢定各解釋變數之顯著性;並依此結果決定那 些變數可被剔除。(10 分)
200.513 686.460 .000 殘差 35.344 121 .292 總數 636.883 124 迴歸 605.486
依題二的迴歸模型分析,得到以下變異數分析(Analysis of variance, ANOVA)表: Source of variation Degrees of freedom Sum of squares Mean square F Regression (1) (4) (6) (8) Error (2) 18,022,930 (7) Total (3) (5) 寫出ANOVA 表中(1)至(8)的值。(8 分) 計算判定係數R²及調整判定係數ܴ௔ଶ,並詳述兩者之意義與差異。(10 分) 下表為各解釋變數之變異膨脹因子(variance inflation factor,VIF): 土地面積人口數總計 人口數男 性別比例 VIF 1.178 2,876.474 2,870.672 1.341 詳述何謂VIF 及其值的意義。(12 分)
(1)
(6)
(2)
(7)
(3)
(1)
(8) 8 分
151.371 578.540 .000 殘差 31.397 120 .262 總數 636.883 124 M4 ANOVA 標準化係數 B 之估計值 標準誤 Beta 分配 M1 month_c .296 .009 .944 31.759 .000 (常數) 9.356 .067 139.427 .000 M2 month_c .296 .007 .944 41.028 .000 Month_c2 -.010 .001 -.210 -9.125 .000 (常數) 9.887 .078 126.726 .000 M3 month_c .227 .017 .724 13.446 .000 Month_c2 -.010 .001 -.210 -9.805 .000 Month_c3 .001 .000 .240 4.456 .000 (常數) 9.887 .073 136.166 .000 M4 month_c .227 .016 .724 14.207 .000 Month_c2 .003 .003 .058 .802 .424 Month_c3 .001 .000 .240 4.708 .000 Month_c4 -9.787E-05 .000 -.279 -3.884 .000 (常數) 9.685 .086 112.476 .000 係數 未標準化係數 t 顯著性 Month_c Month_c Month_c2 Month_c Month_c2 Month_c3 Month_c Month_c2 Month_c3 Month_c4 (常數) (常數) (常數) (常數) 附表 ∞ ∞ F分配的百分位點 分子自由度 分 母 自 由 度 F0.05 v1, v2
若SSR 表示迴歸平方和(sum of squares for regression) 詳述「額外的平方和(Extra sum of squares)」SSR(ܺଵ, ܺସ|ܺଶ, ܺଷ)的意 義。(5 分) 詳細推導 SSR(ܺଵ, ܺଶ, ܺଷ, ܺସ) = SSR(ܺଵ) + SSR(ܺଶ|ܺଵ) + SSR(ܺଷ|ܺଵ, ܺଶ) +SSR(ܺସ|ܺଵ, ܺଶ, ܺଷ)。(10 分)
若考慮一因子變異數分析有t 個處理,每個處理有r 個觀測值,其模型 表示如下: ܻ௜௝= ߤ+ ߬௜+ ߝ௜௝, i=1,2,…,t ,j=1,2,..,r , 其中ߤ為總平均數,߬௜為第i 個處理效應,ߝ௜௝是隨機誤差項。 若以線性迴歸模型 ܇= ܆઺+ ઽ 改寫上述一因子變異數分析模型,請定義܇,܆,઺及ઽ,並詳述其維度。 (10 分) 為統計推論之目的,說明隨機誤差項所需的假設。(5 分) 若欲檢定是否存在處理效應,請詳述此檢定之虛無假設、對立假設、 檢定統計量及其拒絕域。(10 分) t分配表 tα
下表為2019年不動產經營業依據實價交易總金額、房仲店數,及平均每店 全年傭收資料。 3 X 之定義為:若該縣市非為直轄市定義為0,若該縣市為 直轄市定義為1。 縣市 X1 Y X2 X3 房仲店數 交易總金額(億)平均每店全年傭收(萬) 直轄市 臺南市 437 2601 1666 1 新北市 1167 6750 1620 1 高雄市 704 3906 1533 1 桃園市 904 4806 1489 1 新竹縣市 411 1815 1236 0 彰雲投 457 1970 1207 0 臺中市 1323 5523 1169 1 臺北市 1375 5306 1081 1 其他縣市 850 2859 942 0 以交易總金額為反應變數,得到下列迴歸估計結果: 模型 估計值 標準誤 s R2 A 截距項 482.770 747.674 869 0.783 X1 4.089 0.813 B 截距項 2024.181 3391.482 1823 0.045 X2 1.450 2.514 C 截距項 2214.667 718.778 1245 0.555 X3 2600.667 880.320 D 截距項 -4006.893 727.336 323.1 0.974 X1 4.586 0.311 X2 3.066 0.459 E 截距項 411.784 599.364 695.6 X1 3.148 0.777 X3 1302.549 586.997 F 截距項 4766.304 2455.545 1229 0.628 X2 -2.261 2.083 X3 3274.570 1068.252 G 截距項 -6603.893 671.369 156.3 0.995 X1 5.774 0.302 X2 4.885 0.458 X3 -1235.952 272.105 表中s為迴歸誤差之標準差的估計值。以顯著水準為0.05,回答下列問題: 檢定各模型中X2之係數顯著性,並比較其結果。(16分) 分別解釋並比較模型C與G中X3之係數估計值的意義。(5分) 寫出模型D的變異數分析表(analysis of variance table),並檢定其迴歸 係數是否皆等於0。(10分) 計算模型E的R2。(6分) 若以向前選取(forward selection)方法,請詳述選取變數的程序及最終 會選到那些變數。(15分) 若以向後剔除(backward elimination)方法,請詳述選取變數的程序及 最終會選到那些變數。(8分)
df2 27 4.2100 3.3541 28 4.1960 3.3404 402 3.8647 3.0182 403 3.8646 3.0181 t0.025(28)=-2.0484, t0.025(30)=-2.0422 一、一位主管欲知道碩士級分析師的月薪是否可以用年資來預測,以作為 未來給薪的參考。他收集了30個樣本觀察值,資料包含年資(X,以年 為單位)和月薪(Y,以千元為單位)。請依據下面數據和圖1回答問題。 1 2 2 1 1 5.34, 76, ( - )( - )= , ( 2198 232.072 21 - ) = , ( - ) 890 n XY i i i n n XX i YY i i i X Y S X X Y Y S X X S Y Y             圖1 在配適 0 1 i i i Y X       的簡單線性迴歸方程式下,請利用最小平 方法計算參數β0 和β1 估計值(estimates )。如果將模型改為 1( ) i i i Y X X        ,請寫出參數α和β1最小平方估計式(least- squares estimators)及其估計標準誤(standard errors)。(12分) 假設 2 0 1 ~ ( , ) i i Y N X     ,請在顯著水準 0.05  下,檢定 0 1 H : 0 。請試述檢定統計量之值、決策法則和結論。請寫出在應 用最大概似估計(Maximum likelihood estimation)法,ߪଶ的估計值。 請寫出利用最小平方法,ߪଶ的估計值。(10分) 請問年資是5年的碩士級分析師之平均薪資的95%信賴區間。(4分) Y X 二、一位分析師受託分析一組資料。資料來自於20位25歲至34歲的健康 女性,其中包括反應變數Y(身體脂肪)和三個解釋變數(X1:皮 褶厚度,X2:大腿圓周和X3:中臂圓周)用作預測身體脂肪。該分 析師初步配適一個迴歸模型如下: 模型1 0 1 1 2 2
(28)
(30) 12 分
若隨機變數(X,Y)為二維常態分配,且X之均數為 x 、變異數為 2 x ,Y之 均數為 y 、變異數為 2 y ,X與Y之相關係數為。 在給定 i X x  的情況下,Y之條件分配亦為常態分配,證明其均數為:   | y y x y i x x x          ,i=1,2,…,n 變異數表達為   2 2 2 | 1 y x y      ,n為觀測值個數。(12分) 若將上述的結果表達為解釋變數X及反應變數Y之簡單線性迴歸模型如 下: 0 1 i i i Y X     ε ,i=1,2,…,n iε 為隨機誤差;亦即   2 i 0 1 | , i i i Y X x N x       請將 0 、 1 及 2 重新以 x 、 2 x 、 y 、 2 y 與等符號表達之。(6分) 寫出iε 的分配。(4分) 證明 2 2 y    。並說明在何種的狀況下 2 2 y    。(8分) 若 XY r 為變數X與Y之樣本相關係數, 2 R 為該迴歸模型之判定係數 (coefficient of determination),證明 2 2 XY r R  。(10分) 附表一 tα 附表二
3 1, , 20. i i i i i Y X X X i             另外,表1計算解釋變數之間的解釋能力。 表1 反應變數 解釋變數 判定係數ܴଶ ܺଵ ܺଶ, ܺଷ 99.86% ܺଶ ܺଵ, ܺଷ 99.82% ܺଷ ܺଵ, ܺଶ 99.04% 請由表1計算變異數膨脹因子(variance inflation factor, VIF)評論該 分析師所配適的迴歸模型1是否合適?如果不合適,請詳細說明原 因和解決方法。(8分) 一位分析師受託分析影響縣市首長滿意度的重要因素。滿意度分數 Y(以1~10為評分範圍,分數愈高代表愈滿意)作為反應變數。該 分析師找到一些重要的解釋變數。依據他所配適的複迴歸模型,有 些預測值有超過10的情況。請問該分析師所配適的複迴歸模型是否 合適?如果不合適,請詳細說明原因和解決的方法。(6分) 一位分析師分析2017年1月至2019年12月的旅遊人數月資料。該分 析師配適的迴歸模型如下: 模型2 2 0 1 2 1 3 2 12 11 ln( ) , ~ N(0, ) iid t t t y t M M M                 此處t 是時間, t為獨立且具有共同分配其平均數為0變異數 2 的常 態分配,ܯ௜是虛擬變數,第i 個月為1,其他月份為0,i=1, 2,…, 11。 請說明在線性迴歸模型下,如何檢查誤差項的所有假設是否有違 反。圖2是模型2的標準化殘差值(studentized residual)對應時間的 殘差圖。請問該分析師所配適的複迴歸模型是否合適?如果不合 適,請詳細說明原因和解決的方法。(10分) 圖2 三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公 分為單位)和X 身高(以英吋為單位)的關係。所建立的簡單線性模 型如下: 0 1 , 1, , . i i i Y X i n        … 請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的 順序,第二欄是殘差值。 請說明何謂異常點(outlier)和高槓桿觀察值(high leverage observation),及其之間的區別。(8分) 表2第三欄是標準化的殘差值(studentized residual)。請以此判斷是 否有異常點存在?請說明判斷準則。 表2第五欄是Student 化刪除殘差(Studentized deleted residuals,以 R-Student 表示)。第i 個R-Student 殘差是在假定將資料中的第i 個觀察值刪除,然後以剩下的n-1個觀察值來建立新的估計迴歸方 程式而標準化獲得的R-Student 殘差值。請以此判斷是否有異常點 存在?請說明判斷準則。(8分) 表2第六欄是hii(hat value),其公式為 2 2 1 ( ) 1 ( ) i ii n j j X X h n X X       , 請問 1 n ii i h  的值為何?請以此判斷是否有可能的高槓桿觀察值存 在?請說明判斷準則。表2的最後一欄,第八欄是DFFITS (Difference in Fits)值。請以此判斷是否有可能的影響點(influential observation)存在?請說明判斷準則。(8分) 表2 Obs Residual Student Residual Cook's D R- Student Hat Diag Cov Ratio DFFITS H 1 0.541 0.443 0.011 0.438 0.101 1.173 0.147 2 0.906 0.718 0.009 0.712 0.035 1.070 0.136 3 -1.777 -1.410 0.041 -1.434 0.040 0.974 -0.293
0.390 0.308 0.002 0.304 0.033 1.097 0.056
-0.977 -0.772 0.010 -0.767 0.032 1.061 -0.140
-1.510 -1.194 0.024 -1.203 0.033 1.005 -0.222
1.490 1.179 0.024 1.186 0.033 1.007 0.219
-0.160 -0.127 0.000 -0.125 0.045 1.117 -0.027 9 1.023 0.809 0.011 0.804 0.032 1.057 0.147 10 -0.510 -0.403 0.003 -0.398 0.033 1.093 -0.073 11 1.957 1.563 0.067 1.602 0.052 0.956 0.374 12 0.157 0.125 0.000 0.123 0.052 1.125 0.029 13 1.023 0.809 0.011 0.804 0.032 1.057 0.147 14 0.556 0.444 0.005 0.438 0.050 1.110 0.101 15 -0.777 -0.614 0.006 -0.608 0.032 1.077 -0.111 16 -0.243 -0.192 0.001 -0.189 0.030 1.099 -0.034 17 -2.043 -1.632 0.073 -1.679 0.052 0.941 -0.392 18 -1.810 -1.458 0.078 -1.486 0.068 0.994 -0.402 19 0.140 0.110 0.000 0.109 0.031 1.101 0.019 20 2.356 1.944 0.236 2.041 0.111 0.926 0.721 21 0.623 0.522 0.022 0.516 0.141 1.221 0.209 22 0.490 0.388 0.003 0.382 0.033 1.093 0.071 23 0.790 0.627 0.008 0.620 0.039 1.083 0.125 24 -0.843 -0.697 0.031 -0.691 0.114 1.168 -0.248 25 -0.810 -0.641 0.007 -0.635 0.033 1.075 -0.117 26 1.490 1.179 0.024 1.186 0.033 1.007 0.219 27 0.490 0.388 0.003 0.382 0.033 1.093 0.071 28 -3.545 -3.437 3.274 -4.299 0.357 0.636 -3.200 29 0.089 0.073 0.000 0.072 0.086 1.168 0.022 30 0.257 0.203 0.001 0.200 0.030 1.098 0.035 31 -1.277 -1.013 0.021 -1.014 0.040 1.040 -0.207 32 1.323 1.065 0.040 1.067 0.066 1.061 0.283 33 0.190 0.153 0.001 0.151 0.068 1.144 0.041 四、一位統計分析師受託預測單位面積房價,欲了解房價受到那些因素所 影響。收集了408筆有關於單位面積房價,屋齡(X1,以年為單位), 到最近的地鐵站的距離(X2),便利商店數量(X3),房屋座落的緯度 (X4)和經度(X5)。擬考慮的模型如下: 模型1 0 1 1 2 2 3 3 4 4 5 5 , 1, , . i i i i i i i Y X X X X X i n                … 模型2 0 1 1 2 2 3 3 , 1, , . i i i i i Y X X X i n            … 模型3 0 1 1 2 2 4 4 5 5 , 1, , . i i i i i i Y X X X X i n              … 請使用表3部分電腦輸出三個模型的變異數分析表(ANOVA, Analysis of Variance)報表來回答以下問題。 表3 模型1 ANOVA表 Response:Y DF Sum of Mean F value P-value squares square Model 5 44260 8852.03227 134.46 <.0001 Error 402 26465 65.83443 Corrected Total 407 70726 模型2 ANOVA表 Response:Y DF Sum of Mean F value P-value squares square Model 3 41703 13901 193.50 <.0001 Error 404 29023 71.83833 Corrected Total 407 70726 模型3 ANOVA表 Response:Y DF Sum of Mean F value P-value squares square Model 4 41879 10470 146.27 <.0001 Error 403 28847 71.57982 Corrected Total 407 70726 在考慮模型1之下,請檢定便利商店數量(X3)這個解釋變數是否 可以從給定模型1中刪除。請用顯著水準 0.05  檢定並敘述對立 假設、檢定統計量之值、決策法則和結論。(8分) 在考慮模型1之下,請檢定房屋座落的緯度(X4)和經度(X5)這兩 個解釋變數是否在模型1對預測單位面積房價有影響。亦即請用 0.05  檢定 0 4 5 H : 0    ,並請敘述對立假設、檢定統計量之值、 決策法則和結論。(8分) 請計算模型1,2和3的調整的複判定係數R2(the adjusted R-squared) 並試述其意義。請敘述檢定,模型誤差項所需要的假設,並綜 合檢定結果,請說明在模型1,2和3中,何者模式為最佳模型。 (10分)
考慮下列涉及3 條可能不同截距但相同斜率之直線的簡單線性迴歸 模式: ݕ = ߚ + ߚݔଵ௜+ ߳ଵ௜ ଶ௜, ଵ௜ ଴ଵ ଵ ݕ = ߚ + ߚଵݔଶ௜+ ߳ ݔଷ௜+ ߳ଷ௜, , ଶ௜ ଴ଶ ݕ = 1 + ߚଵ , ଷ௜ ݅= 1, ⋯, ݊ 其中߳ଵଵ,⋯,߳ଵ௡,߳ଶଵ,⋯,߳ଶ௡,߳ଷଵ,⋯,߳ଷ௡為彼此獨立且期望值為0而變異數 皆為ߪଶ的隨機誤差。請利用上述所有資料求出ߚ଴ଵ, ߚ଴ଶ, ߚଵ的最小平 方估計量 (least squares estimator)ߚመ଴ଵ, ߚመ଴ଶ, ߚመଵ及ߚመଵ的變異數 ܸܽݎ൫ߚመଵ൯。(10 分) 某國政府統計分析師利用迴歸方法分析該國經濟狀況的評估分數ܻ 以及影響該國 濟狀況 所用之模式為 經 其中隨機誤差߳有下列之機率密度函數表達: 之重要指數X,其 ܻ= + ߚଵܺ+ ߳, ߚ଴ ݂ሺݔሻ= ݁௫ ሺ1 + ݁௫ሻଶ,−∞< ݔ< ∞ 當ܻ值大於0時,則該國的經濟評估為正向發展;反之即為負向發 展。考慮另一變數Q,當Y ,則Q=1,反之當Y≤ 0,則Q = 0, 即Q 該國經濟是否為正 展的指標。試求出一函數h 使得 > 0 向發 hሺߤሻ = β0+β1X, 為 其中ߤ = E(Q)為Q 的期望值。(10 分)
下列是 於模式選取及模式診斷的問題。 關 下表為給定4 種不同迴歸模式來配適13 組資料 , i=1,⋯,13,所得的AIC(Akaike’s information criterion,赤池訊息 標準)值。 ) , , , (
2 1 i i i i x x x y 模式 模式中的解 釋變數 AIC BIC A ܺଵ ܺଶ , 25.41 (1) B ܺଵ ܺଷ , 65.11 (2) C ܺ ܺଷ ଶ, 51.03 52.72 D , 2 .03 ܺଵ ܺଶ,ܺଷ 5 (3) 其中ݔ௜௝為解釋變數ܺ௝的資料值,݆= 1,2,3,隨機誤差߳ଵ, ⋯, ߳ଵଷ為彼 此獨立,期望值為0,變異數皆為ߪଶ的常態分配。請完成此表並利 用AIC 及BIC(Bayesian information criterion,貝氏訊息標準)來 選取最適合的模式。(log(a)為數字a 的自然對數值,log(2)=0.69, log(3)=1.1,log(4)=1.39,log(9)=2.2,log(10)=2.3,log(13)=2.56)。 (10 分) 列複迴 ݕ௜= ߚ଴ ଶݔ௜ଶ+ ߚଷݔ௜ଷ+ ߳௜,݅= ⋯,100, 考慮下 歸模式 + ߚଵݔ௜ଵ+ ߚ 1, 其中隨機誤差߳ଵ, ⋯, ߳ଵ଴଴為彼此獨立,期望值為0,而變異數皆為ߪଶ 的 態分配。下列的殘差圖(e 出那些(個) 不適當並請解釋為何不適當: 常 r sidual plot),請選 ⑴(y 軸)對 x 軸)的圖,即ሺ ݅ , ݁௜ ݕො( ݕො, ݁ሻ, = 1 ⋯,100; ⑵(y 軸)對 ଵ(x 軸)的圖,即 ሻ, = 1 ; ௜ ௜ ௜ ݁௜ ݔ௜ ሺݔ௜ଵ, ݁ ݅ , ⋯,100 ⑶(y 軸)對 x 軸)的圖,即ሺ ݅ , ௜ ݁௜ ݕ௜( ݕ, ݁௜ሻ, = 1 ⋯,100; ⑷(y 軸)對 圖 , ݁ = 1 ; ௜ ݁௜ ݔ ሺݔ௜ଷ ௜ሻ, ݅ , ⋯,100 ݁௜(y 軸)對݅(x ݅, ݁௜ሻ, ݅= 1, ⋯,100; ௜ଷ(x 軸)的 ,即 ⑸ 軸)的圖,即ሺ 其中資料ሺݕ௜, ݔ௜ଵ, ݔ௜ଶ, ݔ௜ଷሻ是代表第݅天收集的資料, yොi為第i 個資料之配適值(fitted value),而ei為第݅個資料之殘差 (residual)值。(5 分) 三、某跨國企業A 司 複 歸 式 公 其資料科學家利用下列 迴 模 ݕ௜= ߚ଴+ ߚଵݔ௜+ ߚଶݖ௜+ ߳௜,݅= 1,⋯,10, 來分析該公司一產品的銷售額變化量和該公司此產品價格變化量與 競爭對手B 公司其相對競爭產品價格變化量的關係,其中ݕ௜為A 公 司在第݅個地區的銷售額變化量,ݔ௜為A 公司的產品在第݅個地區的價 格變化量,ݖ௜為B 公司的競爭產品在第݅個地區的價格變化量,而隨 機誤差߳ଵ, ⋯, ߳ଵ଴為彼此獨立,期望值為0,且變異數皆為ߪଶ的常態分 配。給定銷售額變化量ݕଵ, ⋯, ݕଵ଴及下列解釋變數矩陣X 與反應變數 向量Y 的相關資訊: ܺ௧ܺ= ൥ 10 0 0 0 20 0 0 0 20 ൩,ܺ௧ܻ= ൥ 28 -20 12 ൩,yത= ∑ yi 10 i=1 10 =2.8,෍yi 2 10 i=1 =130, 其中 ܺ= ൦ 1 ݔଵ ݖଵ 1 ݔଶ ݖଶ ⋮ 1 ⋮ ݔଵ଴ ⋮ ݖଵ଴ ൪,ܻ= ൦ ݕଵ ݕଶ ⋮ ݕଵ଴ ൪, 以及ܺ௧為 矩陣。 矩陣ܺ的轉置 計算判定係數(coefficient of determination)ܴଶ及ݎ௬௬ො,其中ݎ௬௬ො是 觀察值 ݕଵ, ݕଶ, ⋯, ݕଵ଴與配適值(fitted values)ݕොଵ, ݕොଶ, ⋯, ݕොଵ଴的相關 係數(coefficient of correlation)。(8 分) =0.05 利用F 檢定法檢定 ܪ଴: ߚଵ= ߚଶ= 0及ܪଵ: ߚଵ≠0 或ߚଶ≠0。 在顯著水準α , 且完成下列關於此檢定的變異數分析表(ANOVA table)。(11 分) 來源 (source) 自由度 (degree of freedom) 平方和 (sum of squares) 均方和 (mean square) F 統計量 迴歸 (1) (4) (7) (9) 誤差 (2) (5) (8) 總和 (3) ( ) 6 在顯著水 0 F 準α = .05,利用 檢定法檢定 ܪ଴: ߚଵ+ 2ߚଶ= 0及ܪଵ: ߚଵ+ 2ߚଶ≠0。(8 分) 假定因中美貿易戰的影響,若兩公司同在第11 個地區競爭且其價 格各自調高1,即x11=1及z11=1。請計算在此地區A 公司平均銷售 額變化量E(y11)= ߚ଴+ ߚଵݔଵଵ+ ߚଶݖଵଵ的預測值及其95%預測信賴 區間,即E(y11)的點估計及區間估計。(8 分)
(1)
(2)
(3)
(2)
(3)
(4)
(9)
(10)
(13) 10 分
(1)
(7)
(2)
(8)
(3) 8 分
下列是關於配適模式不正確時造成的影響以及模式適合度問題。 某統計學家欲調查某一地區的當年新生人口與當年經濟成長率的 關係是線性或是牽涉到更高的次方關係。此統計學家蒐集了下列 在不同經濟成長率ݔ௜(單位為%)的新生人口資料 ݕ௜(單位為萬人), …,7, i=1, 3 ݕ= 30 y1=20 ݕ= 22 2 ݕ= 26 4 ݕ= 37
ݕ= 39
ݕ= 42
ݔ1 = −5 2 = −3 ݔ3 −1 ݔ = ݔ4 = 0 ݔ5 = 1 ݔ6 = 3 ݔ7 = 5 並利用下 適 列兩種 歸模 來配 資料 ௜= ߚ଴+ ߚଵݔ௜+ ߳௜ 模式 = ߚ଴+ ߚଵݔ௜+ ߚଶݔ௜ ଶ+ ߚݔ௜ ଷ+ ߳௜ 迴 式 模式 : A ݕ B:ݕ௜ ଷ 其中߳ଵ,⋯,߳଻為彼此獨立 異 皆為ߪଶ的隨機誤差。 但是真正的 歸模 是 且期望值為0,變 數 式 ݕ௜= ߚ଴+ ߚଵݔ௜+ ݔ௜ ଶ ߳௜。 迴 ߚଶ + 如果ߚመ଴஺及ߚመଵ஺為使用模式A 所得之ߚ଴及ߚଵ的最小平方估計量(least squares estimator) ,而ߚመ଴஻,ߚመଵ஻及ߚመଶ஻為使用模式B 所得之ߚ଴, ߚଵ及 ߚଶ的最小平方估計量,請得到這些估計量的期望值向量,即 ቈܧ൫ߚመ଴஺൯ ܧ൫ߚመଵ஺൯቉及൦ ܧ൫ߚመ଴஻൯ ܧ൫ߚመଵ஻൯ ܧ൫ߚመଶ஻൯ ൪。(7 分) 針對模式A,請問是否可利用此統計學家所蒐集的資料作模式缺適 檢定(lack of fit test)?如果可,請算出檢定統計量的值;如果不 可,請解釋原因。(3 分) 五、某工業研究所欲研 某 所 之 能與某化合物含量X間 的關係。利用簡單 性 究 反應過程 散發 熱 ܻ 線 迴歸模式 ݕ௜= ߚ଴+ ߚݔ+ ߳௜,݅= 1,⋯, ଵ௜ ,5 其中ݕ௜為第݅次反應過程所散發熱量之測量值,ݔ௜為第݅次反應過程此 化合物含量,且隨機誤差߳ଵ, ⋯, ߳ହ為彼此獨立,期望值為0,變異數 皆為ߪଶ的常態分配。根據5 應過程所得之資料可得估計迴歸關 係式為 次反 ݕො= 0.2+2.6x 且判定係數(coefficient of determination)ܴଶ為0.845。 計算調整判定係數(adjusted coefficient of determination)及ݔଵ, ⋯, ݔହ 與ݕଵ, ⋯, ݕହ 數 o f n correlation)。(5 分) 的相 在顯著水準ߙ= 定 關係 (c ef icie t of 0.05,利用F 檢定法檢 ܪ଴: ߚଵ= 0及ܪଵ: ߚଵ≠0。(5 分)  算 的95%信賴區間估計。(5 分) 計 ߚଵ ߚመ଴為ߚ଴的最小平 計 l q estimator),且給定ߚመ଴的標 準誤為2.13。在 ,利用t 檢定法檢定 方估 量(east s uares 顯著水準ߙ= 0.05 ܪ଴: ߚ଴≥4及ܪଵ: ߚ଴< 4。(5 分)
9 10 tdf,0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 df 11 12 13 14 15 16 17 18 19 20 tdf,0.025 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 df 21 22 23 24 25 26 27 28 29 30 tdf,0.025 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 df 1 2 3 4 5 6 7 8 9 10 tdf,0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 df 11 12 13 14 15 16 17 18 19 20 tdf,0.05 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 df 21 22 23 24 25 26 27 28 29 30 tdf,0.05 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 附表B:F 分布α=0.05 右尾臨界值, df1 為分子自由度, df2 為分母自由度 Fdf1,df2,0.05 df1\df2 1 2 3 4 5 6 1 161.45 18.51 10.13 7.71 6.61 5.99 2 199.50 19.00 9.55 6.94 5.79 5.14 3 215.71 19.16 9.28 6.59 5.41 4.76 4 224.58 19.25 9.12 6.39 5.19 4.53 5 230.16 19.30 9.01 6.26 5.05 4.39 6 233.99 19.33 8.94 6.16 4.95 4.28 一、考慮一簡單線性迴歸模型 i i i X Y ε β α + + = , i=1,…,n, 其中 iY 為因變數, i X 為自變數, iε 為誤差項且與 i X 獨立。另外,也假設 iε (i=1,…,n)具有獨 立且相同的常態分布 ) ,0 ( 2 σ N ,其中 2 σ 表變異數。(每小題5 分,共20 分) 請導出參數 β α , 的最小平方估計式 β α ˆ ,ˆ ,並證明其不偏性 (unbiasedness)。 如果其他假設不變,但 2 2 ) ( i i X Var σ ε = , i=1,…,n。說明由導出之βˆ 是 否仍具有不偏性?在此情形下,是否可提供較佳的估計式(以式子說 明概念或作法,無需列出詳細結果)? 如果其他假設不變,但 2 1) , ( ρσ ε ε = + i i Cov , i=1,…,n-1。說明由導出之βˆ 是否仍具有不偏性?試舉例說明何種類型的數據會較容易發現 0 ≠ ρ 的 情形。如何檢定 0 = ρ (以式子說明概念或作法,無需列出詳細結果)? 假設自變數 i X 無法直接被觀察到,而是觀察到一個替代變數 , ,..., 1 , n i Wi = , i i i X W δ + = iδ 為白噪音(white noise)與其他變數均獨 立,且 iδ (i=1,…,n)具有獨立且相同的常態分布 )1,0 ( N 。此時若將 i W 取 代最小平方估計式βˆ 中的 i X ,並令所得之新估計式為 w βˆ 。說明此 w βˆ 是 否仍具有不偏性?當n 很大時, w βˆ 的漸近偏差為何?在此情形下是否 可提供較佳的估計式(以式子說明概念或作法,無需列出詳細結果)? 二、在一調查薪資結構的研究中,吾人欲了解薪資(Y)與以下兩變數(X1, X2)的關係,其中X1 表性別(女性為F,男性為M),X2 表區域別(分 為A, B, C 三個區域),收集資料如下表: Y 6 4 3 4 4 2 X1 F F F M M M X2 A A B B C C 一般來說,統計軟體的語法建立Y 與兩變數的迴歸模型分析時,模式部 分可寫為Y~X1+X2(R 軟體)或Y= X1 X2(SAS 軟體),或是直接點 選X1, X2 為自變數進行迴歸分析。請依據此精神與上述之資料, 定義一個設計矩陣(design matirx),並說明此設計矩陣各個欄 (column)的意義。寫下線性迴歸模型,以矩陣形式列出正規方程式 (normal equation),解正規方程式求出參數估計值,列出三區域之兩 兩比較薪資差異的估計值。(14 分) 完成下面之ANOVA 表。(8 分) Analysis of Variance Table:Response:Y 變異來源 自由度 (d.f.) 平方和 (SS) 均方和 (MS) F 值 F value 迴歸 殘差 總和 8.833 計算性別薪資差異(男性對女性)的95%信賴區間,估計一個男性在 區域A的平均薪資及其95%信賴區間。最後,根據ANOVA 表格中F 值說明其代表之意義。(10 分) 三、在一個關於放射線對腫 了一項為期兩年的實驗 射線(劑量範圍為1~ 表: X(劑量)1 1 1 2 Y(壽命)104 104 104 104 根據資料,研究人員完 根據分析結果,求 (ANOVA table)並 命,說明是否認同此 變異來源 自 迴歸 殘差 總和 由於實驗時間的限制 著的狀態。試問若預 驗時間3 年),則迴歸 亦即實驗數據因經費 析結果可能產生怎樣 腫瘤及壽命的影響研究中,研究 驗。此實驗設計30 隻老鼠每週 ~10),並記錄其壽命(單位:週 2 2 3 3 … … 8 8 9 4 104 98 104 94 … … 53 56 44 完成一迴歸分析及配適圖如下: X 與Y 之相關係數,完成下面 並說明此模型是否恰當?另,預測 此預測值?(15 分) 自由度 (d.f.) 平方和 (SS) 均方和 (MS) F F va -- -- 制,事實上有8 隻老鼠壽命記錄在 預算足夠而得以完整觀察所有老鼠 歸分析的參數估計會如何變動( 費限制而對於真實之「壽命與輻射 樣的影響?(5 分) 2 40 60 80 100 Y 究人員利用老鼠設計 週照射不同劑量的放 週)。數據形式如下 9 9 9 10 10 10 4 36 56 37 26 46 面之變異數分析表 預測當X=15 時之壽 值 alue -- -- 錄在104 週時還是活 老鼠的壽命時(如實 可配合圖形說明), 輻射劑量關係」的分 4 6 8 10 X 四、一組資料內含Y 及X1~X5 等變數,資料有31 筆觀察值。為了進行變數 選取,考慮Y 對X1~X5 之一階(first order)所有可能迴歸模式。經由 分析整理得到下表: no. of variables X1 X2 X3 X4 X5 adjr2 Cp no. of variables X1 X2 X3 X4 X5 adjr2 Cp 1 0 0 0 0 1 0.142 14.5 3 1 0 1 0 1 0.371 5.4 1 0 0 1 0 0 0.142 14.5 3 1 0 0 1 1 0.361 5.8 1 0 0 0 1 0 0.14 14.6 3 0 1 1 0 1 0.294 8.8 1 1 0 0 0 0 0.014 20.8 3 0 0 1 1 1 0.277 9.6 1 0 1 0 0 0 0.008 21 3 0 1 0 1 1 0.263 10.2 2 0 0 1 0 1 0.288 8.3 3 1 1 0 0 1 0.21 12.6 2 0 0 0 1 1 0.286 8.4 3 1 1 1 0 0 0.178 14 2 1 0 0 0 1 0.189 12.9 3 1 0 1 1 0 0.169 14.5 2 1 0 1 0 0 0.185 13.1 3 1 1 0 1 0 0.156 15.1 2 1 0 0 1 0 0.176 13.5 3 0 1 1 1 0 0.128 16.3 2 0 1 0 0 1 0.163 14.1 4 1 1 1 0 1 0.377 6.1 2 0 1 1 0 0 0.137 15.3 4 1 0 1 1 1 0.361 6.7 2 0 0 1 1 0 0.126 15.8 4 1 1 0 1 1 0.343 7.5 2 0 1 0 1 0 0.115 16.4 4 0 1 1 1 1 0.322 8.4 2 1 1 0 0 0 0.021 20.7 4 1 1 1 1 0 0.164 15.3 3 1 0 1 0 1 0.371 5.4 5 1 1 1 1 1 0.401 6 以adjusted R2 為準則,排序選取最佳三個模式。(6 分) 以Mallow’s Cp 為準則,排序選取最佳三個模式。(6 分) 採用F 檢定法,說明向後消去法(Backward elimination, stay level=0.05) 準則的選模過程,並列出所選取之模式。(10 分) 除變數選擇外,針對模型Y=β0 +β1X1+β2X2+β3X3+β4X4+β5X5+ε 分析得 到另ㄧ表。請以第一列的值解釋dfb.X2(-0.154)及dffit(-0.371)的用途 及其大概的原理。(6 分) Obs. dfb.X1 dfb.X2 dfb.X3 dfb.X4 dfb.X5 dffit cov.r cook.d hat 1 -0.101 -0.154 -0.23 0.201 -0.132 -0.371 2.008 0.024 0.396 2 0.1 0.083 0.072 -0.081 -0.044 0.177 1.608 0.005 0.226 3 -1.145 2.676 2.773 -2.481 1.735 4.332 0.001 0.902 0.23 … 30 0.019 0.053 0.049 -0.046 -0.016 -0.079 1.636 0.001 0.223 31 0.063 0.07 0.037 -0.048 -0.048 -0.184 1.498 0.006 0.179
(請接第二頁) 107年公務人員高等考試三級考試試題 全五頁 第二頁 類 科: 統計 科 目: 迴歸分析 兩兩變數間的散布圖如下: Y X1 X2 X3 X4 (請接第三頁) 107年公務人員高等考試三級考試試題 全五頁 第三頁 類 科: 統計 科 目: 迴歸分析 下列為六個不同迴歸模型的估計結果: 估計值標準誤 截距項 5.7314 1.3622 ܺଶ 0.0605 0.0323 估計值標準誤 截距項12.5929 1.4054 ܺଷ -0.0552 0.0171 估計值標準誤 截距項11.3715 2.6355 ܺଶ 0.0185 0.0335 ܺଷ -0.0493 0.0205 估計值標準誤 截距項-36.3909 11.7069 ܺଵ 0.7256 0.2009 ܺଶ 0.0617 0.0247 估計值標準誤 截距項-25.9329 14.1083 ܺଵ 0.5948 0.2221 ܺଶ 0.0402 0.0296 ܺଷ -0.0251 0.0196 估計值標準誤 截距項-24.9931 15.3071 ܺଵ 0.5811 0.2394 ܺଶ 0.0472 0.0463 ܺଷ -0.0256 0.0205 ܺସ -0.2671 1.3228 (請接第四頁) 107年公務人員高等考試三級考試試題 全五頁 第四頁 類 科: 統計 科 目: 迴歸分析 下表為配適線性迴歸模型,不同 所得之模 選取準則的 。 變數 ܵܵܧ௣ 型 ܴ௣ ଶ 結果 ܴ௔,௣ ଶ 模型 模型中的變數 p ܥ௣ A ܺଵ
17 4.4513 3.5915 43 4.0670 3.2145 44 4.0617 3.2093 87 3.9506 3.1013 88 3.9493 3.1001 一、何謂多重共線性(multicollinearity)?多重共線性對估計結果有何 影響?如何偵測複迴歸模型中存在多重共線性?請詳述所需要的 判斷準則。(12 分) 一位分析師進行迴歸分析資料並配適複迴歸模型如(1)。 100 , ,1 , 7 7 1 1 0 " " = + + + + = i X X Y i i i i ε β β β (1) 所獲得初步結果如圖1。請用圖1 部分統計電腦套裝軟體輸出結 果,說明這位分析師所配適的模型是否合適?如果模型(1)不合 適,請說明原因並提供所有可以解決問題的方法。(10 分) 圖1 二、醫院分析師希望研究患者滿意度(Y)與患者年齡(X1,以年為單位), 疾病嚴重程度指數(X2)以及焦慮指數(X3)之間的關係。分析師隨 機選擇了46 名患者並收集了數據。請使用圖2 部分統計電腦套裝軟 體輸出結果來回答以下問題。 圖 2 請計算額外平方和(extra sum of squares) = ) , | (
(1)
(1)
(1) 10 分
34.310 0.365 0.328 6.625 B ܺଶ 2 44.836 0.171 0.122 13.260 C ܺଷ 2 33.557 0.379 0.343 6.150 D ܺସ 2 50.735 0.062 0.006 16.977 E ܺଵ、ܺଶ
1 2 X X X SSR ?(4 分) 假設這位分析師採用模型是 i i i i X X Y ε β β β + + + = 3 3 1 1 0 (2) 該分析師想知道在模型(2)之下,增加疾病嚴重程度指數(X2)此額 外變數,解釋其在顯著水準α=5%下是否有顯著的貢獻,並敘述對 立假設、檢定統計量之值、決策法則和結論。(8 分) 假設這位分析師採用模型是 i i i i i X X X Y ε β β β β + + + + = 3 3 2 2 1 1 0 (3) 請檢定疾病嚴重程度指數(X2)和焦慮指數(X3)兩個解釋變數是 否可以從模型(3)中刪除,也就是在已經有患者年齡(X1)解釋變數 之下,解釋變數X2 和X3 可否從模型中移除?請在顯著水準α=5% 檢定,並協助敘述對立假設、檢定統計量之值、決策法則和結論。 在本小題的檢定問題中,請試述需要作何假設,才能執行這些統計 檢定。(10 分) 三、一位分析師考慮對三組數據配適一個簡單迴歸模型 i i i X Y ε β β + + = 1 0 ,其中 0 β 、 1 β 為參數,ε 為隨機誤差,且假設其為 具均數0,標準差σ 之常態分配。 配適模型後,三組數據之殘差分析圖分別為3(a)、3(b)、3(c),請 分別說明配適迴歸模型是否恰當?若模型不合適或偏離模型假設 時,請指出不恰當之處並請提出修正的方法。(21 分) 在何種情況下,需要採用加權最小平方法(Weighted least squares) 估計未知的參數?請協助提供散佈圖和殘差圖說明。(7 分) 圖3(a) 標準化殘差時間序列圖(Standardized residuals vs. time) 圖3(b) 標準化殘差對預測值圖(Standardized residuals vs. ݕො௜) 圖3(c) 標準化殘差對預測值圖(Standardized residuals vs. ݕො௜)
(2)
(2) 8 分
(3)
(3) 10 分
24.695 0.543 0.486 2.565 F ܺଵ、ܺଷ 3 25.019 0.537 0.479 2.769 G ܺଵ、ܺସ 3 27.841 0.485 0.421 4.548 H ܺଶ、ܺଷ 3 32.928 0.391 0.315 7.754 I ܺଶ、ܺସ 3 43.507 0.195 0.095 14.422 J ܺଷ、ܺସ 3 33.540 0.380 0.302 8.139 K ܺଵ、ܺଶ、ܺଷ
一位資料分析師受託分析一組數據,想要了解一個特定基因,稱之 GT 基因,是否有影響老鼠斷奶時的重量。該分析師預計配適模型1 和模型2。 Y=斷奶時的重量(公克為單位) X1=年齡(以日為單位) X2=品種(品種A=1,B=0) X3=GT 基因(有此基因=1,無此基因=0) X4=性別(公老鼠=1,母老鼠=0) 模型1: , 4 4 3 3 2 2 1 1 0 i i i i i i X X X X Y ε β β β β β + + + + + = 模型2: , 2 1
22.277 0.588 0.506 3.041 L ܺଵ、ܺଶ、ܺସ 4 24.694 0.543 0.452 4.564 M ܺଵ、ܺଷ、ܺସ 4 23.862 0.559 0.470 4.040 N ܺଶ、ܺଷ、ܺସ 4 31.562 0.416 0.300 8.893 O ܺଵ、ܺଶ、ܺଷ、ܺସ
4 4 3 3 2 2 1 1 0 i i i i i i i i X X X X X X Y ε β β β β β β + + + + + + = 請使用圖4 和圖5 中部分統計電腦套裝軟體輸出變異數分析 (ANOVA, Analysis of Variance)回答下列問題: 請計算模型1 和模型2 的調整的複判定係數R2(the adjusted R-squared)。試述其意義,並判斷何種模型為佳。(8 分) 在顯著水準5%下,請檢定「GT 基因」在模型1 中是否影響老鼠的 重量?(4 分) 請解釋在考慮模型1 下,請說明如何檢定老鼠的性別之兩條迴歸線 是相同的迴歸線。並請列出虛無假設、對立假設、檢定統計量及決 策法則。(4 分) 在顯著水準5%下,請檢定X1i X2i 相乘項在模型2 中是否對解釋反 應變數Y 有顯著貢獻?請試述虛無假設、檢定統計量之值、決策法 則和結論,以及所需要之假設。請解釋X1i X2i 該項在迴歸模型的意 義。(12 分) 圖4 模型1 的變異數分析 圖5 模型2 的變異數分析
22.212 72 0.589 0.4 5.000 表中p 為各模型中迴歸係數的個數,ܵܵܧ௣為該模型下所得的誤差平方和(error sum of squares),ܴ௣ଶ為其判定係數(coefficient of determination),ܴ௔,௣ ଶ為調整的判定係數 (adjusted oef cient of determination),ܥ௣為Mallows’ ܥ௣ criterion。 c fi 一、若由ܺଶ與ܺଷ的散布圖判斷,該圖中可能有一個離群值。請將該離群值排除後, 重新計算ܺଶ與ܺ相關係數。(10 分) 下列問題皆在顯著水準為0.05 下,進行統計假設檢定: ଷ 二、檢定模型A ଵ的迴歸係數是否為0?(10 ) (下列的問題皆是在無離群值存在的狀況下作答。) 的ܺ 分 ,寫 分 檢定 是否 0 分) 四、若SSReg(ܺ௜|ܺ௝)代表給定ܺ௝已在模型中,ܺ௜加入模型中的額外平方和(extra sum of squares)。請分別計算SSReg(ܺଶ|ܺଵ)、SSReg(ܺଶ|ܺଷ)、SSReg(ܺଶ, ܺଷ|ܺଵ)、 SSReg(ܺଵ, ܺଶ|ܺଷ, ܺସ)。(12 分) 三、針對模型O 出其變異數 析表。 其迴歸係數 同時為0。(1 五、藉由迴歸估計結果及報表,詳細說明「就業者之教育程度結構- 專及以上」 (ܺଶ)此一變數對於粗出生率的影響,是否具統計顯著意義?( 分) 大 10
請詳細說明前述各模型選取準則的定義,包括ܵܵܧ௣、ܴ௣ଶ、ܴ௔,௣ ଶ及ܥ௣。並說明他 們在模型選取的判斷原則為何?(12 分)
在不同的p 下,請依各準則判斷其所得之最適模型。(12 分)
請決定一個影響粗出生率的最適迴歸模型,並說明理由。(6 分) 九、計算所得的最適迴歸模型的均方誤(MSE),並說明其意義。(6 分) 十、寫出線性迴歸模型之誤差項的假設。並針對誤差項的各項假設,分別提出一種 殘差分析的圖形,及說明在符合假設下各圖形應呈現的型態。(12 分) (請接第五頁) 107年公務人員高等考試三級考試試題 全五頁 第五頁 類 科: 統計 科 目: 迴歸分析 α tα
考慮一多元線性迴歸模型,其反應變數為Y,解釋變數為X1 , X2 , … , Xk,有n 個觀測 值,線性迴歸模型為 n i X X X Y i ik k i i i , ... ,1 , ...
2 1 1 0 = + + + + + = ε β β β β ,其中誤差項 iε 之期望值為0,變異數為 2 σ ,且兩兩獨立,此模型以向量及矩陣方式表示為 (*) ε β + = X Y ,其中 , 1 2 1 × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = n n Y Y Y Y # 1 2 1 1 )1 ( 1 0 )1 ( 2 1 1 21 11 , , 1 1 1 × × + + × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = n n k k k n nk k k n X X X X X X X ε ε ε ε β β β β # # # " " " " # 請回答下列問題:(每小題5 分,共30 分) 以向量及矩陣方式,試求出參數向量β 之最小平方估計量向量b。 承題,令A 為一個2 × (k+1) 的矩陣,求Ab 之變異數-共變異數矩陣。 配適值向量表為 HY Y = ˆ ,寫出矩陣H。 求出殘差向量e = Y Y ˆ − 之變異數-共變異數矩陣。 令A 為對稱矩陣,則 AY Y' 稱為Y 之二次式,將此模型之SSE(error sum of square) = e 'e 表成二次式,其中' Y 和'e 分別是Y 和e之轉置矩陣。 求出β 之最大概似估計量,對誤差項向量需要什麼假設。 二、某無人車研發公司欲預測它的行車時間Y,考慮了三個高度相關的解釋變數分別是行 駛里數X1,車種X2,車齡X3,收集過去20 個月資料得到 SSR(X1, X2, X3) = 4000, SSR(X1) = 1000, SSR(X1|X2) = 600, SSE(X1, X2, X3) = 800, 請回答下列問題:(每小題5 分,共15 分) 求偏判定係數2 X X . YX 2 1
28 4.196 3.340 29 4.183 3.328 50 4.034 3.183 52 4.027 3.175 一、請回答下列問題: 圖1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電 廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為90.12%。 請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分) 2005 2006 2008 2004 2007 2000 2001 2002 2003 1999 1999 700 deaths 600 deaths 500 deaths s 400 death Swimming-pool drownings 2009 850 BkWh 800 BkWh 750 BkWh Nuclear power plants 700 BkWh 2006 2007 2009 2005 2008 2001 2003 2000 2002 2004 Nuclear power plants Swimming-pool drownings 圖1 一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變 數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配 菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴 歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇 重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度 解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維 度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的 答案為不適用,請說明理由。(10 分) (請接第二頁) 106年公務人員高等考試三級考試試題 全四頁 第二頁 類 科:統計 科 目 :迴歸分析 二、一位分析師隨機抽取55 位大學生並蒐集到五個變數。該分析師希望研究身高(Y,英 吋)與受測者左前臂長度(X1,公分)、左腳長度(X2,公分)、頭圍(X3,公分) 和鼻長(X4,公分)之間的關係。該分析師考慮配適下列三個迴歸模型: 模型1:Y i i i i i i X X X X β β β β β ε + + + + + = 4 4
r 。 檢定偏相關係數 2 1 3 X X . YX ρ 是否為0,請求出F 檢定統計量的值。 求偏判定係數2 X . X YX 3 2 1 r (以最簡分數表示)。 106年特種考試地方政府公務人員考試試題 全一張 (背面) 等 別: 三等考試 類 科: 統計 科 目: 迴歸分析 三、一國內規模最大的律師事務所專門辦理職災案件,總經理想了解他們在捷運上的廣告有 沒有增加他們的業務量,根據過去隨機抽取11 月的資料,利用兩個解釋變數:一為單 月廣告費用X1(單位為百萬元,平均值為1 單位,標準差為2 單位),另一個為主要競 爭對手單月廣告費用X2(單位為百萬元,平均值為1 單位,標準差為2 單位)來預測職 災案件的每月增加件數Y(單位為件,平均值為3 件,標準差為2 件),下表是以不同 解釋變數配適每月增加件數Y 之迴歸模型的參數最小平方估計量和誤差平方和SSE。 迴歸模型代號 迴歸模型中的解釋變數 參數最小平方估計量 SSE LM1 X1 b1 = 0.3 5 LM2 X2 b2 = -0.1 8 LM3 X1, X2 b1 = 0.2, b2 = -0.2
3 2 2 1 1 0 模型2:Y i i i i X X ε β β β + + + = 2 2 1 1 0 模型3:Y i i i X ε β β + + = 1 1 0 請使用表1 和表2 中部分R 統計軟體輸出之變異數分析表(ANOVA,Analysis of Variance)報表來回答以下問題:(每小題10 分,共30 分) 表1 模型1 ANOVA 表 Response:Y DF Sum of Mean F value squares square X1 1 590.21 590.21 123.8106 X2|X1 1 224.35 224.35 47.0621 X3|X1, X2 1 1.4 1.4 0.294 X4|X1, X2, X3 1 0.43 0.43 0.0896 Error 50 238.35 4.77 表2 模型2 ANOVA 表 Response:Y DF Sum of Mean F value squares square X1 1 590.21 590.21 127.782 X2| X1 1 224.35 224.35 48.572 Error 52 240.18 4.62 假設該分析師採用模型1。在顯著水準α=0.05 之下,請檢定X3和X4兩個解釋變數是否 可以從給定模型1 中刪除。也就是用α=0.05 檢定 0
下面所有小題的計算若除不盡,一律四捨五入到小數第二位,否則不給分。 分別求出三個迴歸模型LM1~LM3 之判定係數。(6 分) 分別求出三個迴歸模型LM1~LM3 之修正判定係數。(6 分) 使用題的結果求出Y 和X1 之相關係數以及Y 和X2 之相關係數。(4 分) 針對迴歸模型LM3 於試卷上依序填入下列ANOVA 表中(1)~(8)之8 個空格內容。(8 分) Analysis of Variance Source DF Sum of Squares Mean Square F Value Model (1) (3) (6) (8) Error (2) (4) (7) Corrected Total 10 (5) 針對迴歸模型LM3 欲檢定X2 的係數是否為0,求出偏F 檢定的計算值。(6 分) 針對迴歸模型LM3,當迴歸係數在什麼條件下,MSR 的期望值為 2 σ ?(5 分) 若三個變數之變異數-共變異數矩陣為: ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = 16 1 0 1 4 1 0 1 1 V 為了求其相關係數矩陣,需在V 前後乘一個對角矩陣,寫出此對角矩陣。(5 分) 四、某大數據資料分析公司以Y 對三個變數X1, X2, X3 所做的複迴歸分析中,樣本大小 n = 14,得到複判定係數R2 = 90%,又將Y 改對變數X2 做迴歸分析時,得到判定係 數R2 = 70%,請回答下列問題:(每小題5 分,共15 分) 此公司欲檢定X1, X3 的迴歸係數是否為0,請求出F 檢定統計量的值。 設速食店營收為Y(單位為百萬元),廣告費為X1,有得來速(drive-through)服務 時X2 = 1,沒有則X2 = 0,做迴歸分析得到迴歸平面為Y = 1+1.5 X1+2 X2,因有得 來速服務多出來的平均營收為多少元? 承題,令 2 j R 代表解釋變數Xj 對另一個解釋變數做迴歸分析得到的判定係數, j = 1,2, 且 2 1 R = 0.65, 2 2 R = 0.95,求出X2 之變異數膨脹因子(VIF),若VIF 大於10 代 表模式有何問題?
(1)
(8) 8 分
(1)
(6)
(2)
(7)
(5) 6 分
3 0 = = Η β β : 2 R 3 X , X Y, ,並試述對立假設,檢 定統計量之值、決策法則和結論。並請計算偏相關係數 (partial R2)。 | 2 1 4 X , X 假設該分析師採用模型2。也就是在模型中僅考慮了兩個解釋變數,這兩個解釋變 數是學生的左前臂長度(X1)和左腳長度(X2)。該分析師想知道這兩個解釋變數 是否與身高(Y)有線性關係。在顯著水準α=0.05 之下,請檢定 0 2 1 0 = = Η β β : 。 並請試述檢定統計量之值、決策法則和結論。另請計算模型2 的調整的複判定係 數R2(adj R2,the adjusted R-squared)並試述其意義。又該分析師要把身高的單位 英吋轉公分(英吋乘以2.54),試述模型2 的adj R2 是否改變? 假設該分析師採用模型3。只考慮模型中具有一個解釋變數,為學生的左前臂長度 (X1)。在顯著水準α=0.05 下,該分析師想知道一個額外的解釋變數X2 是否在解 釋身高上具有顯著的貢獻。也就是說,該分析師想知道X2 對模型3 的貢獻。請協 助回答此問題並說明對立假設、檢定統計量之值、決策法則和結論。在表1 和表2 的F 檢定中,請試述需要做何假設,才能執行這些F 檢定。 (請接第三頁) 106年公務人員高等考試三級考試試題 全四頁 第三頁 類 科:統計 科 目:迴歸分析 (請接第四頁) 三、 在作迴歸分析時,經常會遇到離群值和有影響力觀察值(influential data point)的 問題。請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴 51 圖2A 圖2B 圖3A 是另一 估計式 包括第41 點觀察值 ,虛線估計式 不包括第 值?並請試述這組數據集是否包含任何有 4 分) 圖3A 圖3B  歸分析中的離群值和有影響力觀察值。(12 分) 圖2A 是一組數據的散佈圖,圖2B 提供兩條估計線,實線估計式 X Y 97 .4 8.2 ˆ + = 包 括第51 點觀察值 )) 50 ,4 ( ) , (( = Y X ,虛線估計式 i i i X 98 . 不包括第 51 51 i 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含 任何有影響力觀察值?另請說明理由。(4 分) Y 4 68 .3 ˆ + = 組數據的散佈圖,圖3B 提供兩條估計線,實線 影響力觀察值?另請說明理由。( i i 41 41 41 X Y 08 .4 95 .6 ˆ + = i i X Y 21 .5 93 .1 ˆ + = )) 16 , 10 ( ) , (( = Y X 點觀察值。請試述這組數據集是否包含任何離群 106年公務人員高等考試三級考試試題 全四頁 第四頁 類 科:統計 科 目:迴歸分析 四、一位數據分析師受冰飲企業老闆的委託,欲知道每日最高溫和該公司冰品銷售是否 有線性關係,以作為未來商品促銷的依據。他蒐集了每日最高溫(X,以攝氏為單位) 和冰品銷售(Y),共30 個樣本點。下列是這些數據的統計量: 30 = n , 9892 . 28 = X , 7065 . 34 = Y , 2128 . 360 ) )( ( 1 = − − = ∑ = n i i i Y Y X X SXY ∑ = = − = n i i X X SXX 1 2 0186 . 556 ) ( , ∑ = = − = n i i Y Y SYY 1 2 0085 . 353 ) ( 在配適 ) ( ) | ( 1 X x x X Y E − + = = β α 的簡單線性迴歸方程式下,請利用最小平方法計算 參數估計值(αˆ 和 )與分別之標準誤。並請試述 1ˆβ αˆ 和 的共變異數,也就是Cov( 1ˆβ αˆ , )。(15 分) 1ˆβ 請在試卷上,完成下列變異數分析表。在顯著水準α=0.05,請協助檢定 0 1 0 = Η β : 。 並請試述檢定統計量之值、決策法則、結論和所需要之假設。(10 分) Source Sum of Squares DF Mean square F value Regression (1) (4) Error (2) (5) (6) Total (3)
(1)
(2)
(6)
一位分析師擬以 ∑ = − −⎥⎦ ⎤ ⎢⎣ ⎡ − − − = n i i i i i X X Y Y n 2 1 1 1 1 1 ~β 估計簡單線性迴歸模型 i i i X Y ε β β + + = 1 0 , 之 斜率 n i ,..., 1 = 1β 。他可以證明 1 ~β 是一個不偏估計式。請寫出 1β 的最小平方估計式 。在無須推導 1ˆβ 1 ~β 的變異 數下,試述相較於最小平方估計式 , 1ˆβ 1 ~β ˆβ 和 何者為最佳之估計式?請詳細敘述所依據 的理由或定理。(10 分) 1
迴歸分析中分別對下列陳述做一評述: 如R2(coefficient of determination 判定係數)大(譬如0.95),則此模型良好,應 採用。(6 分) 如R2(coefficient of determination 判定係數)小(譬如0.35),則此模型不佳,不 應採用。(6 分)
某公司兩業務單位(A, B)之員工業績(Y)及年齡(X)散佈圖如下,數列1 為單 位A,數列2 為單位B。欲觀察年齡與所屬業務單位如何影響員工業績,請以員工業 績(Y)為應變數設一個複迴歸模式,並解釋模式中每個迴歸係數之涵意。(24 分)
在複迴歸模型診斷中, 「某人對應變數(Y)做常態假設之檢定,發現非常態,故採Y 之變數變換處理」, 評論之。(3 分) 如何觀察各解釋變數與應變數之線性假設是否成立?(3 分) VIF(變異數膨脹係數)值過大,表示為何?(3 分) 某hii = 0.7,表示為何?(3 分) 0 5 10 15 20 25 30 35 40 45 0 10 20 30 40 50 60 數列1 數列2 105年公務人員高等考試三級考試試題 全一張 (背面) 類 科: 統計 科 目: 迴歸分析
針對某公司員工,得一迴歸分析如下: 模型 ε R β M β X3 β X2 β X1 β β Y R M 3 2 1 0 + + + + + + = 。 = Y 量化工作績效, = X1 年資(以年為單位), = X2 薪資(以萬元為單位), = X3 所 屬小組之人數,(M, R) = (1, 0)為行銷部門,(M, R) = (0, 1)為研發部門,(M, R) = (0, 0) 為行政部門。 應變數:Y 使用的觀測值數目:70 SSTO = 36.304 SSR(X1) = 14.288, SSR(X2 | X1) = 0.676, SSR(X3 | X1, X2) = 5.766, SSR(M | X1, X2, X3) = 1.212, SSR(R | X1, X2, X3, M) = 0.357 參數估計值 變數 參 數 估計值 標準 誤差 t 值 Pr > |t| Intercept 0.535 0.491 1.09 0.2793 X1 0.029 0.006 4.84 <.0001 X2 -0.180 0.107 -1.68 0.0951 X3 0.044 0.011 4.00 0.0001 M 0.433 0.163 2.66 0.0099 R 0.175 0.137 1.28 0.2061 如薪資(X2)之單位由萬元改為千元,上述提供之資料有那些不會改變?有那些 會改變?變化為何?(8 分) 在其他變數固定下,檢定薪資(X2)對Y 之效果是否顯著為負?( 05 .0 α = )(8 分) H0: 0 β0 = vs. H1: 0 β0 ≠ 之檢定( 05 .0 α = ),有何結論?又,是否要去除截距項? (敘明理由)(8 分) 就檢定H0: 0 β β R M = = vs. H1:not H0,請算出F 檢定統計量之值及寫出決策法則。 ( 05 .0 α = )(12 分) 求R2(coefficient of determination 判定係數),並解釋其涵意。(8 分) 經變數選取後,得估計迴歸式為 = Yˆ 0.01 + 0.025X1 + 0.045X3 + 0.342M,請分別 解釋X3 及M 的係數估計值之涵意。(8 分)
兩位科學家試圖研究某一個解釋變數X 與某一個反應變數Y 之間的直線關係。數據 如下,請根據提供的數據回答以下問題: X 10 9 8 7 6 5 4 3 Y 45 20 34 58 70 57 55 44 兩位科學家委託一位統計學家協助計算他們有興趣的直線關係。為了徹底了解X 與Y 之間的直線關係,統計學家建議先試試「Y = A」,也就是說,X 與Y 之間沒 關係。請問根據以上數據,A 的估計值等於多少?(5 分) 接下來,統計學家假設的直線關係是「Y = A + B × X」,其中「B × X」意味著「『直 線斜率』乘以『X』」。也就是說,統計學家第二次研究具有「直線截距」與「直線 斜率」的直線關係。請問根據以上數據,直線斜率B 的估計值等於多少?(10 分) 最後,兩位科學家在收到上述分析報告之後,決定更動直線關係為「Y = B × X」。 也就是說,兩位科學家第三次研究的議題是「無直線截距」的直線關係。請再一 次根據以上數據,回答直線斜率B 的估計值等於多少?(10 分)
3.073 3.048 3.026 3.007 2.990 2.975
兩位科學家試圖研究某一個解釋變數X 與某一個反應變數Y 之間的直線關係。數據 如下: X 10 9 8 7 6 5 4
2.695 2.668 2.645 2.624 2.606 2.589
Y 45 20 34 58 70 57 55 44 這兩位科學家決定取得數據在「Y = A + B × X +ε,ε 為誤差項」這一項假設下的變異 數分析表。請問: 總平方和(total sum of squares)等於多少?(10 分) 迴歸平方和(regression sum of squares)等於多少?(10 分) 誤差平方和(residual sum of squares)等於多少?(5 分) 三、假設一組38 個樣本、三個變數的數據集,其中三個變數分別是一個反應變數、一個解 釋變數、加上一個源自前述解釋變數的「兩水準虛擬變數(dummy variable)」。也就是 說,這一個虛擬變數只會出現兩種數字,假設不是「0」就是「1」。請回答以下問題: 如果數據科學家提出一個這樣的複迴歸模型「反應變數= A + B × 解釋變數+ C × 虛擬 變數+ D × 虛擬變數× 解釋變數」。請寫下「虛擬變數等於1」的數學方程式?(5 分) 請說明的迴歸係數A, B, C, D 的數值以描述在「『虛擬變數等於0』與『虛擬變 數等於1』下的迴歸直線是同一條直線。」(10 分) 請說明的迴歸係數A, B, C, D 的數值以描述在「『虛擬變數等於0』與『虛擬變 數等於1』下的迴歸直線是兩平行直線。」(10 分) 104年特種考試地方政府公務人員考試試題 全一張 (背面) 等 別: 三等考試 類 科: 統計 科 目: 迴歸分析
2.490 2.462 2.437 2.416 2.397 2.380
統計學家為一位有興趣採用「迴歸分析」實踐「檢定三個處理平均數是否相等」的 科學家寫下這樣的設計矩陣X, 1 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 0 1 0 0 1 0 0 請回答以下問題: 請計算H 矩陣(hat matrix)。(5 分) 請用結果證明這時候 ) H I( − ) H I( ) H I( − = − ,其中I 是一個對角線上是1、其他 都是0 的方陣。(10 分) 根據迴歸分析理論的計算,統計學家發現檢定「三個處理平均數相等」這一項虛 無假設的檢定統計量是兩項「迴歸平方和」之間的「差」。請問是那兩項迴歸平方 和?回答問題時,請根據題意自行定義相關的符號。(10 分)
2.361 2.333 2.308 2.286 2.266 2.249 一、若考慮配適一簡單線性迴歸模型y=α+βx+ε,其中α、β 為參數,ε 為隨機誤差,且 假設其為具均數0,標準差σ之常態分配。今於配適模型後,繪出殘差對自變數x 的分析圖。請分別針對圖(a)-(c)的結果,說明迴歸模型是否恰當?若模型不恰當時, 請指出對於參數估計值是否會有偏差(bias)之影響,對於有關參數的假設檢定是 否正確,另外也請提出修正的方法。(18 分) 二、根據下列3 變數,6 個觀察值的資料 Y 1 0 1 1 0 0 X1 1 -2 1 0 0 0 X2 0 1 2 2 1 0 令Y、X1、X2 分表各變數觀察值所形成的向量,另定義X0 為長度等於6 且元素 均等於1 的向量。在以向量表示法的迴歸模型M:Y=β0X0+β1X1+β2X2+ε 中, 如何將β0X0+β1X1+β2X2 更精簡的以矩陣與參數向量表示?另外,在一般情形 下,此時ε 之機率分佈為何?(4 分) 計算迴歸模型M 中之參數向量的最小平方估計量及估計其變異數共變異數矩陣 (variance-covariance matrix)。(8 分) 令Yˆ 為長度等於6 的向量,其元素為迴歸模型M 對Y 的配適值(fitted values), 則存在一矩陣H 使得Yˆ =HY,計算此矩陣H。(4 分) 計算迴歸模型M 中的變異數膨脹因子(variance inflation factor, vif)vif(X1)與 vif(X2)。(4 分) (請接第二頁) 20 40 60 80 100 120 -20 0 20 40 (a) x Residual 20 40 60 80 100 120 -2 -1 0 1 2 3 (b) x Residual 20 40 60 80 100 120 -200 -100 0 50 100 (c) x Residual (a) (b) (c) x x x 104年公務人員高等考試三級考試試題 全三頁 第二頁 三、三高(高血壓、高血糖、高血脂)與許多重大慢性病皆有重要關係。為了解個人體 質、生活習慣等對於三高的影響因子,並對社會大眾提出建議與注意事項。因此, 研究人員由臺灣數個醫學中心,採用隨機抽樣法蒐集了10000 個就診慢性病者的資 料進行調查分析。該資料測量每個人的血壓(以收縮壓為例,單位為mmHg)及其 他相關變數如下: 性別(男性為1,女性為0),年齡(25-85 歲),身體質量指數BMI(定義為身高/體重2, 單位為m/kg2),量血壓習慣(有量血壓習慣者為1,反之為0),量血糖習慣(有 量血糖習慣者為1,反之為0),量血脂習慣(有量血脂習慣者為1,反之為0), 喝酒習慣(平均每天喝1 瓶600c.c.啤酒或相當之酒類以上者為1,反之為0),抽 煙習慣(有抽煙習慣者為1,反之為0),外食頻率(每週外食次數),運動習 慣(有運動習慣者為1,反之為0),睡眠品質(睡眠品質佳者為1,反之為0)。 研究者建立血壓(y)對所有解釋變數的迴歸模型,得到如下表(LM1)之結果,其殘 差分析也無明顯瑕疵。 模型LM1 之所有變數的解釋力為多少?一般來說,此解釋力算是高、中或低?並 解釋表中「F-statistic:4961 on 11 and 9988 DF, p-value:<2.2e-16」之意義。(4 分) 在模型LM1 下,以兩人之不同的性別、年齡及BMI 解釋參數估計值所代表之意 義。(6 分) 為了去蕪存菁,研究人員去除兩個非常不顯著的變數並得到下表模型LM2 之結 果。根據LM1 及LM2,請就下面1.或2.擇一回答(兩項均答者不予評分)。 (10 分) 1. 說明LM1 與LM2 何者較佳或差不多,並建議大眾那些變數為三高影響因子應 儘量避免或注意? 2. 此分析結果不適合用來推薦三高影響因子(說明原因及提出改進方法,此結論 是否與題結論矛盾?)。 (請接第三頁) 模型LM2 Estimate Std. Error t value Pr(>|t|) (Intercept) 97.551 0.624 156.414 0.0000 性別 19.570 0.111 176.780 0.0000 年齡 0.452 0.005 86.912 0.0000 身體質量指數BMI 1.247 0.457 2.726 0.0064 量血壓習慣 2.070 0.108 19.081 0.0000 量血糖習慣 0.556 0.100 5.532 0.0000 量血脂習慣 3.013 0.311 9.702 0.0000 喝酒習慣 -0.746 0.294 -2.539 0.0111 外食頻率 -1.836 0.979 -1.876 0.0607 運動習慣 2.934 0.858 3.420 0.0006 Residual standard error:4.923 on 9990 degrees of freedom Multiple R-squared:0.8453, Adjusted R-squared:0.8451 F-statistic:6064 on 9 and 9990 DF, p-value:< 2.2e-16 模型LM1 Estimate Std. Error t value Pr(>|t|) (Intercept) 97.487 0.627 155.365 0.0000 性別 19.564 0.113 173.786 0.0000 年齡 0.452 0.005 86.894 0.0000 身體質量指數BMI 1.249 0.458 2.729 0.0064 量血壓習慣 2.070 0.108 19.084 0.0000 量血糖習慣 0.557 0.100 5.545 0.0000 量血脂習慣 3.012 0.311 9.697 0.0000 喝酒習慣 -0.741 0.294 -2.522 0.0117 抽煙習慣 0.046 0.049 0.936 0.3494 外食頻率 -1.827 0.979 -1.866 0.0621 運動習慣 2.933 0.858 3.418 0.0006 睡眠品質 -0.005 0.019 -0.284 0.7764 Residual standard error:4.923 on 9988 degrees of freedom Multiple R-squared:0.8453, Adjusted R-squared:0.8451 F-statistic:4961 on 11 and 9988 DF, p-value:< 2.2e-16 104年公務人員高等考試三級考試試題 全三頁 第三頁 四、一個學習效果評量相關分析的報告裏,資料內容由20 人(男女各半)的4 個變數 (y,x1,x2,x3)所構成。其中y 為學習效果(其平均值96.2 且標準差為24.47),x1=1 或0 表男性及女性,x2(其平均值83.6 且標準差為5.9)與x3(其平均值65 且標 準差為10.3)分別表某性向測驗的兩種分數。下圖為資料之4 個變數間的散佈圖;此 外,下表也列出配適學習效果y 與不同解釋變數之迴歸模型的R2。 考慮模型M1,完成下面的分析表,說明填入之F value 及t value 的值所代表意義。 (12 分) Analysis of Variance Table:Response:y Df Sum Sq Mean Sq F value x1 Residuals Total Coefficients: Estimate Std. Error t value Intercept x1 考慮模型M1,計算y 在x1=1 之信心水準為90%的預測區間。(5 分) 在M1-M7 模式中,給定進入模式水準(entry level)α=0.1,採用F 檢定法,列 出前進選取(forward selection)程序與其最終選定之模式。(10 分) 根據準則Akaike Information Criterion(AIC),依序列出M1-M7 模式中的最佳3 個模型。(10 分) 針對M7 模式,在顯著水準α=0.1 下,檢定x2 與x3 之係數是否同時等於0。(5 分) y 0.0 0.2 0.4 0.6 0.8 1.0 50 60 70 80 60 80 100 120 0.0 0.2 0.4 0.6 0.8 1.0 x1 x2 75 80 85 90 60 80 100 120 50 60 70 80 75 80 85 90 x3 Model Variables in model R2 M1 x1 0.397 M2 x2 0.413 M3 x3 0.487 M4 x2, x3 0.504 M5 x1, x2 0.676 M6 x1, x3 0.697 M7 x1,x2, x3 0.697 y x1 x2 x3
考慮簡單線性迴歸模型如下: x x X Y E 1 0 ) | (     (1) 若解釋變數X 的值替代為Z=aX+b,a≠0 且b 為常數,則模型(1)改寫為: z z Z Y E 1 0 ) | (     (2)  請比較 0 與 0 、 1 與1 的關係。(10 分) 請問模型 (1)與模型(2)的判定係數是否改變?(回答是或否即可)(2 分)
(1)
(1)
(2) 10 分
(1)
(2) 2 分
014.0616.1341.2ˆxxy及變異數分析(ANOVA)表SourceSum of SquaresdfFPR>FModel5550.8 (A) (D)0.000Error (B) (C)Corrected Total5784.5試填入ANOVA 表中(A)、(B)、(C)和(D)內之數字。(5 分)試問上述迴歸模型是否顯著(α = 5%)?(5 分)若X 為資料中之設計矩陣(design matrix),且 000001.000004.0-00008.0-00004.0-0027.000445.0-00008.0-00445.0-1132.0)(1XX試檢定jiHH:vs.:1 > 答案:?
若反應變數為Y,解釋變數為 j X ,j=1,2,..,p,及n 個觀測值。考慮線性迴歸模型如下: i ip p i i i X X X Y             2 2 1 1 0 , i=1,2,…,n (3) 其中 i為均數是0,變異數是 2 的隨機誤差項。若將模型(3)以向量及矩陣方式 表達如下:   X Y (4)  請分別定義Y、X、β 及ε 之向量及矩陣之表達式,並標示其行與列的大小。(8 分)  試求模型(4)中,β 的最小平方估計式。(10 分) 證明題所得的 最小平方估計式為不偏的。(5 分)  若欲求得β 的最大概似估計式,需對誤差ε 有如何的假設?(2 分)
(3)
(3)
(4) 8 分
(4) 10 分
100,任意2,1,0,ji;i 不等於j。請寫出檢定統計量之分布和自由度(α = 5%)。(臨界值(critical value)= 3.44。)(15 分)二、迴歸模型中解釋變數間若存在共線性(multicollinearity)對估計結果影響甚鉅。變異數膨脹因子(variance inflation factor, VIF)是判斷共線性的一個指標。VIF 之意涵為何?試說明VIF 和共線性的關係。(10 分)某組資料有5 個解釋變數x1, x2, x3, x4, x5 所得迴歸係數估計結果如下:VariablebjseVIFIntercept0.8300.318x1-0.0120.647(0.002)-1x20.1990.483(0.001)-1x3-0.1170.178(0.010)-1x4-0.3670.294(0.008)-1x50.1860.147(0.009)-1其中jb 為迴歸係數j之估計值,se 為其標準誤。試評估解釋變數中是否存在共線性?(5 分)103年公務人員高等考試三級考試試題全一張(背面)三、在有三個解釋變數之一組資料配適迴歸模型後,得到所有部分集合之變數選擇(allpossible subsets selection)結果如下(jb 為迴歸係數j之估計值):p-1R2Cpb0b1b2b310.03275.450.770.32510.70511.850.271.36110.70711.67-0.361.10320.7598.79-0.29-0.4631.25520.8083.12-0.190.7810.63320.8302.03-0.930.6551.487 > 答案:?
表一為民國101 年縣市有關教育的資料(最後兩列分別為各變數值的加總與平方後 之加總),圖一為其對應之兩兩變數散布圖矩陣(Scatter matrix),表二為這些變 數之變異共變異矩陣(Variance-covariance matrix)。若考慮 3 X 及
0.8314.00-0.120.7371.589-0.094何謂Cp,試說明其意義。(10 分)由表中結果來看,最佳模型為何?為什麼?(10 分)四、下述資料為某幼稚園自80 年後至90 年之幼童入學學費。年8182838485868788899080 年後之年分, x123 > 答案:?
X 放入模型中, 表三為其估計結果。表四為僅考慮 4 X 放入模型中的估計結果。 以題二中迴歸模型(4)的表達方式,表五為僅考慮 3 X 在模型中 1 ) (  X X T 與 ) ( Y X T 的結果(上標T 代表矩陣的轉置)。 請回答下列問題:  在Y 與 1 X 的散布圖中,可看到一個明顯的離群值(Outlier),請說明為那一個縣 市?(2 分)  請計算所有變數之兩兩變數間的相關係數矩陣(Correlation matrix)。(10 分) (請接第二頁) 103年特種考試地方政府公務人員考試試題 全五頁 第二頁  若將題 中所發現的離群值排除後,再計算Y 與 1 X 的相關係數。另外,若將該離 群值排除,已知不會影響 3 X 及 4 X 的相關係數。請建議後續統計分析(包含迴歸 分析)該如何處理此一離群值。(6 分)  請說明表三中三個「t statistic」的意義,及其值與所對應之p value 所代表之結論。 (6 分)  請說明表三中「Residual standard error」的意義。(5 分)  請說明表三中「F-statistic」的意義,及其值與所對應之p value 所代表之結論。 (5 分)  請比較題 及題 的結論是否一致?無論一致與否,皆請說明為何能有這樣的結 果。(5 分)  表三與表四中所得到 4 X 的迴歸係數估計皆為正的,是否可說明「國中生視力不 良率愈高,大專以上學歷所占比例愈高;高視力不良率可提升國民的教育程度, 因此視力不良率很高不是一件不好的事。」請評論引號中的話。(5 分)  請說明為何表四的「Multiple R-squared」比表三的值小,但表四的「Adjusted R-squared」卻比表三的值大。(5 分)  僅考慮 3 X 在模型中的簡單線性迴歸模型,請計算其截距與斜率的估計值。(6 分)  若考慮下列三個模型:         4 41 3 31 01 X X Y       3 32 02 X Y       4 43 03 X Y 那一個模型為最適模型?請寫出理由及所根據的準則。(8 分) (請接第三頁) 103年特種考試地方政府公務人員考試試題 全五頁 第三頁 表一 15 歲以上民間人 口之教育程度結 構-大專及以上 (Y,%) 平均每一教師 教導學生數- 國小 ( 1 X ) 平均每一教師 教導學生數- 國中 ( 2 X ) 視力不良率- 國小 ( 3 X ,%) 視力不良率- 國中 ( 4 X ,%) 新北市 37.9 15.0 14.4 54.6 77.6 臺北市 63.3 12.8 12.7 52.4 78.1 臺中市 39.0 16.3 14.0 53.4 78.1 臺南市 34.9 15.9 14.6 49.6 75.9 高雄市 37.6 16.0 14.0 51.2 74.1 宜蘭縣 29.2 13.6 13.4 43.3 68.2 桃園縣 35.1 17.1 14.3 49.5 74.1 新竹縣 34.8 15.2 12.8 47.0 70.1 苗栗縣 27.1 12.9 12.1 43.9 67.2 彰化縣 28.1 16.0 14.5 52.7 79.6 南投縣 27.7 11.8 13.1 41.4 66.8 雲林縣 24.7 13.5 13.8 44.9 65.8 嘉義縣 22.9 12.1 12.8 41.5 67.4 屏東縣 27.0 13.5 14.6 38.9 61.2 臺東縣 19.4 9.5 11.8 31.1 55.1 花蓮縣 29.4 10.9 12.3 36.6 59.5 基隆市 35.1 14.8 12.5 53.0 74.4 新竹市 46.1 16.7 13.2 49.7 73.3 嘉義市 49.8 17.5 14.7 54.0 78.7 總和 649.1 271.1 255.6 888.7 1345.2 平方和 24124.55 3957.55 3454.52 42366.01 96138.94 表二 (請接第四頁) Y 1 X 2 X 3 X 4 X Y 108.29 11.24 1.91 47.15 49.93 1 X 11.24 4.97 1.50 12.37 12.70 2 X 1.91 1.50 0.89 3.36 3.65 3 X 47.15 12.37 3.36 44.35 45.79 4 X 49.93 12.70 3.65 45.79 49.93 103年特種考試地方政府公務人員考試試題 全五頁 第四頁 表三 Estimate Std Err t statistic p value Intercept -26.12 29.4966 -0.886 0.389 3 X 0.58 1.2380 0.468 0.646 4 X 0.47 1.1667 0.402 0.693 Residual standard error: 8.048 on 16 degrees of freedom Multiple R-squared: 0.4683, Adjusted R-squared: 0.4018 F-statistic: 7.046 on 2 and 16 DF, p-value: 0.006388 表四 Estimate Std Err t statistic p value Intercept -36.63 18.6525 -1.964 0.06611 4 X 1.00 0.2622 3.813 0.00139 Residual standard error: 7.861 on 17 degrees of freedom Multiple R-squared: 0.461, Adjusted R-squared: 0.4293 F-statistic: 14.54 on 1 and 17 DF, p-value: 0.00139 表五 1 ) (  X X T Intercept 3 X Intercept 2.7933940 -0.0585962 3 X -0.0585962 0.0012528 T TY X ) ( = (649.1 31209.5) (請接第五頁) 103年特種考試地方政府公務人員考試試題 全五頁 第五頁 Y 10 12 14 16 35 40 45 50 55 20 30 40 50 60 10 12 14 16 x1 x2 12.0 13.0 14.0 35 40 45 50 55 x3 20 30 40 50 60 12.0 13.0 14.0 55 60 65 70 75 80 55 60 65 70 75 80 x4 圖一
(4) 2 分
> 答案:?
> 答案:?
> 答案:?
> 答案:?
> 答案:?
> 答案:?
學費(千元), y6.16.87.58.59.310.511.512.625 13.975 14.975由(xy,)之散布圖(scatter plot)發現y 和x 的關係較接近xey。欲得一線性模型,須將y 作何轉換(transformation)?試寫出轉換後的模型。(10 分)令iz 為反應變數iy 轉換後的值,且686.133783.22101101iiiiizxz,。試求α 和β 的最小平方估計量(least square estimate)。(10 分)根據之結果,預測100 年時該幼稚園之幼童入學學費。(10 分)五、假設(ii xy ,)滿足niεxxyiippii,...,1110,。令jb 為迴歸係數j之最小平方估計量,pj,...,1,0。著名的高斯-馬可夫(Gauss-Markov)定理是對pjjjl0之估計有興趣,其中pll ...,,0是已知的實數。試敘述Gauss-Markov定理及其假設條件。(10分) > 答案:?
抽樣某公司業務員之週業績(sales)與其每週工作時數(work)和年資(experience, 以年計),做兩個迴歸分析如下: 分析一: Dependent Variable: sales Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 95.23381 95.23381 0.91 0.3473 Error 31 3241.31165 104.55844 Corrected Total 32 3336.54545 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr >|t| Intercept 1 144.77530 8.52019 16.99 <.0001 work 1 0.17402 0.18234 0.95 0.3473 分析二: Dependent Variable: sales Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 2186.59454 1093.29727 28.52 <.0001 Error 30 1149.95092 38.33170 Corrected Total 32 3336.54545 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr >|t| Intercept 1 104.05180 7.55046 13.78 <.0001 work 1 0.43469 0.11590 3.75 0.0008 experience 1 1.57153 0.21276 7.39 <.0001 就分析一,當每週工作時數為45 小時,估計週業績之平均數及變異數。(10 分) 比較分析一與分析二,每週工作時數與業績之關係有何差異?你會採用那個模 式?為什麼?(α=0.05)(15 分) 就分析二,在固定年資水準下,如工作時數增加一小時,檢定平均業績之增加量 是否低於0.5?列出H0 及H1,並檢定之。(α=0.025)(10 分) 就分析二,如年資的單位由年改為月,那些數值會改變?並求改變後之值。(10 分) 102年公務人員高等考試三級考試試題 類 科: 統計 全一張 (背面)
對以下之簡單線性迴歸模式()niNXYdiiiiii,,1,,0~,12...1K=++=σεεβ,iX 為已知自變數(independent variable)且不全為0。令1ˆβ 是參數1β 之最小平方估計量(least squares estimator)及1βαe=。(每小題10 分,共20 分)請找出參數α 之最大概式估計量(maximum likelihood estimator)。請求出1ˆβ 之期望值( )1ˆβE及變異數( )1ˆβVar(請詳列推導過程)。

本頁資料來源:考選部歷屆試題·整理提供:法律人 LawPlayer· lawplayer.com