lawpalyer logo

統計 111 年迴歸分析考古題

民國 111 年(2022)統計「迴歸分析」考試題目,共 14 題 | 資料來源:考選部

0 題選擇題 + 14 題申論題

一位統計分析師想瞭解身高( iY ,以英寸為單位)是否可以用手掌張 開長度( 1 X ,以公分為單位)和性別(
3.1 4.1 1 9.8
X ,男性是1,女性是0)來 預測?他收集66 名大學生為樣本。所配適的線性迴歸模型如下: 0 1 1 2 2 , 1, , . i i i i Y X X i n           請依據表1 回答下列問題。 表1: ANOVA Source Sum of Squares DF Mean square F test Regression 840.8436 2 Error (1) (3) (5) (Lack of fit) (2) (4) (Pure error) 283.8476 45 Total 1220.4394 65 請計算表1 中(1)−(5)所列的線性迴歸的ANOVA 相關訊息。(10 分) 在顯著水準5%下,請檢定身高是否與手掌張開長度 1 ( ) X 和性別 2 ( ) X 有線性關係存在。請列出虛無假設/對立假設、檢定統計量及 決策法則。在無需查表之下,你的建議結論為何?(5 分) 在顯著水準5%下,請檢定線性迴歸模型是否有顯著的缺適(lack of fit)?以了解線性迴歸模型是否足以描述身高與手掌張開長度 1 ( ) X 和性別 2 ( ) X 之間的關係。請列出虛無假設/對立假設、檢定統 計量及決策法則。在無需查表之下,你的建議結論為何?請說明缺 適檢定所需要之假設。(10 分) 二、一位統計分析師分析奧林匹克男子田徑短跑200 公尺數據,包含1900 年 至2020 年間舉行的28 次男子200 公尺奧林匹克短跑比賽獲金牌的秒 數,其中第一次和第二次世界大戰期間沒有舉辦奧運會,而2020 年奧林 匹克運動會因為COVID-19 疫情實際是2021 年在日本東京舉行。因此 資料包含year(以年為單位)和Y(以秒為單位),其散布圖在圖1。 圖1 奧林匹克年份和男子田徑短跑200 公尺秒數散布圖 這位統計分析師重新定義變數,他把“西元年(year)”平減1963,並 定義新的解釋變數X,也就是X=year−1963。樣本相關資訊如下,其 中n 為樣本數,請依據這些資訊回答問題。 1 2 2 1 1 0.1429, 20.5582, ( - )( - )= 888.2171, ( - ) =36859.4286, ( - ) 24.3354 n XY i i i n n XX i YY i i i X Y S X X Y Y S X X S Y Y              請計算( , ) X Y 的皮爾森相關係數。(5 分) 該統計分析師配適模型 0 1 i i i Y X       ,此處 i是誤差項。請寫出 以最小平方估計法所得到的估計迴歸線,並推導共變異數 0ˆ和 1ˆ, 也就是 0 1 ˆ ˆ ( , ) Cov  。(10 分) 在顯著水準 0.05  之下,請檢定 0 1 : 0 H  是否顯著?請詳述檢 定統計量之值、決策法則和結論。請問年份和獲金牌的秒數之間是 否存在線性關係?以此資料是否可以推論人類在田徑短跑越跑越 快?t 分配臨界值,0.025 0.025 (26) 2.0555, (27) 2.0518 t t   。(10 分)
(1)
(5)
(2)
(1)
(5) 10 分
(26)
(27) 10 分
3.5 3.9 1 12.6
一位統計分析師受託分析20 名年齡40~60 歲高血壓患者的血壓相關 數據,以評估可能影響血壓的重要因素,資料描述如下: 血壓(Y,反應變數,以mm Hg 為單位),年齡( 1 X ,以年為單位), 重量( 2 X ,公斤),體表面積( 3 X ,平方公尺),高血壓病史(
4.8 4.7 1 11.9
X , 以年為單位),基礎脈搏(
3.1 3.6 1 11.1
X ,以每分鐘為單位),壓力指數(
5.5 5.1 1 9.3
X , 0−100 為範圍)。部分統計套裝軟體輸出結果在表2 和表3。 表2 反應變數 5個解釋變數 判定係數ܴ௝ ଶ X1 X2-X6 0.451 X2 X1, X3-X6 0.925 X3 X1-X2, X4-X6 0.905 X4 X1-X3, X5-X6 0.196 X5 X1-X4, X6 0.754 X6 X1-X5 0.416 表3 解釋變數 Type I SS 偏判定係數 X1 SSR(X1) 243.266 ܴ௒,௑భ ଶ 0.4344 X2 SSR(X2|X1) 306.886 ܴ௒,௑మ|௑భ ଶ 0.96891 X3 SSR(X3|X1,X2) 0.765 ܴ௒,௑య|௑భ,௑మ ଶ 0.07763 X4 SSR(X4|X1,X2,X3) 0.250 ܴ௒,௑ర|௑భ,௑మ,௑య ଶ 0.02755 X5 SSR(X5|X1,X2,X3,X4) 0.965 ܴ௒,௑ఱ|௑భ,௑మ,௑య,௑ర ଶ 0.1092 X6 SSR(X6|X1,X2,X3,X4,X5) 1.023E-04 ܴ௒,௑ల|௑భ,௑మ,௑య,௑ర,௑ఱ ଶ 1.3E-05 這位分析師一開始採用(1)式中模型1 的複迴歸分析,他擔心有多 重共線性(Multicollinearity)問題。 模型1: 1 1 2 2 3 3 4 4 5 5 6 6 , 1, , . (1) i i i i i i i i Y X X X X X X i n                … 請協助這位分析師利用表2 判斷是否有嚴重的多重共線性,並說明 模型1 是否合適?如果不合適,請詳細說明原因和判斷方法。(5 分) 表3 第二欄的定義,若SSR(Xi|Xj)代表給定Xj 已在模型中,Xi 加 入模型中的額外平方和(extra sum of squares)。請計算SSR (X1,X2,X3,X4,X5,X6)。最後一欄符號代表偏判定係數(coefficient of partial determination)。請說明偏判定係數 3 1 2 2 , , Y X X X R 的計算式及其意 義。請利用表3 結果,建議分析師採用那些變數,詳細說明理由和 判斷方法。(10 分) 請利用表3 結果及SST=560,SSR(X1,X2,X5)=551.568,計算SSR (X5|X1,X2)和偏判斷係數 5 1 2 2 , , Y X X X R 。(10 分) 四、一位教師擬瞭解學生的測試表現是否受智商和教學方法所影響,以 60 名學生為實驗對象,在採用三種教學方法之下,獲得測試成績Y, 智商X。前兩種教學方法M1, M2 變數定義如下。 1 2 1 1 2 0 0 M M         教學法1 教學法 其他 其他 這位教師分別考慮的模型如下: 模型1 0 1 , 1, , . i i i Y X i n        … 模型2 0 2 1 3 2 , 1, , . i i i i Y M M i n          … 模型3 0 1 2 1 3 2 , 1, , . i i i i i Y X M M i n            … 請使用表4 部分電腦輸出3 個模型的變異數分析(ANOVA, Analysis of Variance)報表來回答下列問題。 在考慮模型3 之下,請檢定智商X 該解釋變數對於解釋測試成績 是否有顯著的解釋能力。請用顯著水準 0.05 = 檢定並詳述檢定統 計量之值、決策法則、結論和所需之假設。t 分配臨界值, 0.975(56) 2.0032 t  。(10 分) 在考慮模型3 之下,請檢定教學方法M1 和M2 這兩個虛擬變數是否 在模型3 對預測學生測試成績有效應。請在顯著水準 0.05 = ,檢定 0 2 3 0 H   : = = ,請詳述檢定統計量之值、決策法則、結論和所需之假 設。F 分配左尾臨界值,0.95 0.95 , (1, 56) = 4.0130 (2, 56) = 3.1619 F F 。 (10 分) 請使用表4 說明那一種教學方法最能提升測試成績,須說明論述。 (5 分) 表4 模型1 ANOVA表 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 1 816.928 816.928 14.72 0.0003 Error 58 3219.255 55.504 Total 59 4036.183 模型2 ANOVA表 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 2 2880.033 1440.017 71 P-value Error 57 1156.150 20.283 Total 59 4036.183 模型3 ANOVA表和參數估計 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 3 3512.745 1170.915 125.27 <.0001 Error 56 523.438 9.347 Total 59 4036.183 模型3參數估計 Variable DF Estimate Standard Error t value P-value Intercept 1 56.024 4.306 13.01 <.0001 X 1 0.350 0.043 8.14 <.0001 M1 1 -15.770 0.967 -16.3 <.0001 M2 1 -11.943 0.972 -12.28 <.0001
(1)
(1) 5 分
(56) 10 分
5.0 4.1 1 12.8
4.8 3.3 1 12.8
4.3 5.2 1 12.0 9 3.9 2.9 3 13.6 10 4.7 3.9 1 13.9 11 4.5 3.6 3 14.4 12 4.3 3.6 2 12.3 13 7.0 4.1 3 16.1 14 6.7 3.7 3 16.1 15 5.8 4.1 3 15.5 16 5.6 4.4 3 15.5 17 4.8 4.6 3 13.8 18 5.5 4.1 3 13.8 19 4.3 3.1 1 11.3 20 3.4 3.4 2 10.9 21 6.6 4.8 3 15.1 22 5.3 3.8 3 13.5 23 5.0 3.7 2 10.8 24 4.1 4.0 2 9.5 25 5.7 4.7 3 12.7 26 4.7 4.9 2 11.6 27 5.1 5.1 1 11.7 28 5.0 5.1 2 11.9 29 5.0 4.4 2 10.8 30 2.9 3.9 2 8.5 總和 144.00 123.90 60 375.60 總平方和 722.02 523.03 142 4821.30 「總和」與「總平方和」表示該變數之值的加總及取平方後之加總。 定義區域ܺଷ之指標變數如下: ܦଵ= ቊ 1 若該茶園屬於區域1 0 其他 、ܦଶ= ቊ 1 若該茶園屬於區域2 0 其他 、ܦଷ= ቊ 1 若該茶園屬於區域3 0 其他 以茶葉每10 公克之價格為反應變數,考慮迴歸模型如下: ܻ= ߚ଴+ ߚଵܺଷ+ ߝ 模型A ܻ= ߚ଴+ ߚଵܦଶ+ ߚଶܦଷ+ ߝ 模型B ܻ= ߚ଴+ ߚଵܦଵ+ ߚଶܦଶ+ ߝ 模型C ܻ= ߚ଴+ ߚଵܦଵ+ ߚଶܦଶ+ ߚଷܦଷ+ ߝ 模型D ܻ= ߚଵܦଵ+ ߚଶܦଶ+ ߚଷܦଷ+ ߝ 模型E ߝ為隨機誤差項。 說明模型A、B、C、D 及E 所表達的意義,並決定那些模型是較合適的。 (10 分) 依據模型B,得到以下估計結果: Estimate Std Err Intercept 11.7455 0.3789 ܦଶ -0.9580 0.5840 ܦଷ 2.8091 0.5359 R² = 0.6410 試詳細說明係數ߚଶ之估計值的意義,並計算此模型之迴歸標準誤的 估計。(8 分) 試寫出模型C、D 及E 之所有迴歸係數的估計值。(12 分) 承上題,令模型F 為 ܻ= ߚ଴+ ߚଵܺଵ+ ߚଶܺଶ+ ߚଷܦଶ+ ߚସܦଷ+ ߝ 。 依據模型F,得到以下估計結果: Estimate Std Err Intercept 10.6039 1.4918 ܺଵ 0.8881 0.2752 ܺଶ -0.6561 0.3686 ܦଶ -0.9285 0.5097 ܦଷ 1.6658 0.5853 R² = 0.7473 若有一茶園位於區域1,且其因素甲與因素乙的分數皆為4.5。該品種 之茶葉包裝方式為500 公克一盒,請估計一盒的售價。(4 分) 若將反應變數的單位改為茶葉每公斤之價格,寫出此迴歸模型之係數 估計結果及其標準誤(如表格中之Estimate 與Std Err)。(8 分) 在顯著水準為0.05 下,檢定ߚଵ與ߚଶ是否同時等於0。(8 分) 若迴歸分析得到以下變異數分析(Analysis of variance, ANOVA)表: Source of variation Degrees of freedom Sum of squares Mean square F Regression (1) (6) (8) (13) ܺଵ (2) 33.2 (9) (14) ܺଶ|ܺଵ (3) 15.3 (10) (15) ܺଷ|ܺଵ, ܺଶ (4) 22.2 (11) (16) Error (5) (7) (12) Total 29 106.3 請寫出ANOVA 表中(1)至(16)的值。(16 分) 在顯著水準為0.05 下,詳述ANOVA 表中(13)至(16)所提供之檢 定的意義與結果。(14 分) 考慮p 個解釋變數(ܺଵ、ܺଶ、… 、ܺ௣),n 個觀測值的複迴歸模型如下: ܻ௜= ߚ଴+ ߚଵܺଵ௜+ ߚଶܺଶ௜+ … + ߚ௣ܺ௣௜+ ߝ௜, i=1, 2, …, n 試以上述模型詳述共線性的意義,當共線性現象發生時所可能導致之 影響。(10 分) 詳述變異膨脹因子(variance inflation factor, VIF)之定義及其判斷準則。 (10 分) 【附表】F 分配表
(1)
(8)
(2)
(9)
(3)
(10)
(4)
(11)
(5)
(12)
(1)
(16) 16 分
(13)
(16) 14 分