統計 111 年迴歸分析考古題

看課程介紹看課程

資料由法律人 LawPlayer整理提供·歷屆國考試題完整收錄 / 法律人 LawPlayer 編輯整理

統計 111 年迴歸分析考古題

民國 111 年（2022）統計「迴歸分析」考試題目，共 14 題 | 資料來源：考選部

切換年份：114 113 112 111 110 109 108 107 106 105 104 103 102 101 100 99 98 97 96 95 94 93 92 91

0 題選擇題 + 14 題申論題

一位統計分析師想瞭解身高（ iY ，以英寸為單位）是否可以用手掌張開長度（ 1 X ，以公分為單位）和性別（

3.1 4.1 1 9.8

X ，男性是1，女性是0）來預測？他收集66 名大學生為樣本。所配適的線性迴歸模型如下： 0 1 1 2 2 , 1, , . i i i i Y X X i n           請依據表1 回答下列問題。表1: ANOVA Source Sum of Squares DF Mean square F test Regression 840.8436 2 Error (1) (3) (5) （Lack of fit） (2) (4) （Pure error） 283.8476 45 Total 1220.4394 65 請計算表1 中(1)−(5)所列的線性迴歸的ANOVA 相關訊息。（10 分） 在顯著水準5%下，請檢定身高是否與手掌張開長度 1 ( ) X 和性別 2 ( ) X 有線性關係存在。請列出虛無假設/對立假設、檢定統計量及決策法則。在無需查表之下，你的建議結論為何？（5 分） 在顯著水準5%下，請檢定線性迴歸模型是否有顯著的缺適（lack of fit）？以了解線性迴歸模型是否足以描述身高與手掌張開長度 1 ( ) X 和性別 2 ( ) X 之間的關係。請列出虛無假設/對立假設、檢定統計量及決策法則。在無需查表之下，你的建議結論為何？請說明缺適檢定所需要之假設。（10 分）二、一位統計分析師分析奧林匹克男子田徑短跑200 公尺數據，包含1900 年至2020 年間舉行的28 次男子200 公尺奧林匹克短跑比賽獲金牌的秒數，其中第一次和第二次世界大戰期間沒有舉辦奧運會，而2020 年奧林匹克運動會因為COVID-19 疫情實際是2021 年在日本東京舉行。因此資料包含year（以年為單位）和Y（以秒為單位），其散布圖在圖1。圖1 奧林匹克年份和男子田徑短跑200 公尺秒數散布圖這位統計分析師重新定義變數，他把“西元年（year）”平減1963，並定義新的解釋變數X，也就是X=year−1963。樣本相關資訊如下，其中n 為樣本數，請依據這些資訊回答問題。 1 2 2 1 1 0.1429, 20.5582, ( - )( - )= 888.2171, ( - ) =36859.4286, ( - ) 24.3354 n XY i i i n n XX i YY i i i X Y S X X Y Y S X X S Y Y              請計算( , ) X Y 的皮爾森相關係數。（5 分） 該統計分析師配適模型 0 1 i i i Y X       ，此處 i是誤差項。請寫出以最小平方估計法所得到的估計迴歸線，並推導共變異數 0ˆ和 1ˆ，也就是 0 1 ˆ ˆ ( , ) Cov  。（10 分） 在顯著水準 0.05  之下，請檢定 0 1 : 0 H  是否顯著？請詳述檢定統計量之值、決策法則和結論。請問年份和獲金牌的秒數之間是否存在線性關係？以此資料是否可以推論人類在田徑短跑越跑越快？t 分配臨界值，0.025 0.025 (26) 2.0555, (27) 2.0518 t t   。（10 分）

(1)

(5)

(2)

(1)

(5) 10 分

(26)

(27) 10 分

3.5 3.9 1 12.6

一位統計分析師受託分析20 名年齡40~60 歲高血壓患者的血壓相關數據，以評估可能影響血壓的重要因素，資料描述如下：血壓（Y，反應變數，以mm Hg 為單位），年齡（ 1 X ，以年為單位），重量（ 2 X ，公斤），體表面積（ 3 X ，平方公尺），高血壓病史（

4.8 4.7 1 11.9

X ，以年為單位），基礎脈搏（

3.1 3.6 1 11.1

X ，以每分鐘為單位），壓力指數（

5.5 5.1 1 9.3

X ， 0−100 為範圍）。部分統計套裝軟體輸出結果在表2 和表3。表2 反應變數 5個解釋變數判定係數ܴ௝ ଶ X1 X2-X6 0.451 X2 X1, X3-X6 0.925 X3 X1-X2, X4-X6 0.905 X4 X1-X3, X5-X6 0.196 X5 X1-X4, X6 0.754 X6 X1-X5 0.416 表3 解釋變數 Type I SS 偏判定係數 X1 SSR(X1) 243.266 ܴ௒,௑భ ଶ 0.4344 X2 SSR(X2|X1) 306.886 ܴ௒,௑మ|௑భ ଶ 0.96891 X3 SSR(X3|X1,X2) 0.765 ܴ௒,௑య|௑భ,௑మ ଶ 0.07763 X4 SSR(X4|X1,X2,X3) 0.250 ܴ௒,௑ర|௑భ,௑మ,௑య ଶ 0.02755 X5 SSR(X5|X1,X2,X3,X4) 0.965 ܴ௒,௑ఱ|௑భ,௑మ,௑య,௑ర ଶ 0.1092 X6 SSR(X6|X1,X2,X3,X4,X5) 1.023E-04 ܴ௒,௑ల|௑భ,௑మ,௑య,௑ర,௑ఱ ଶ 1.3E-05 這位分析師一開始採用(1)式中模型1 的複迴歸分析，他擔心有多重共線性（Multicollinearity）問題。模型1： 1 1 2 2 3 3 4 4 5 5 6 6 , 1, , . (1) i i i i i i i i Y X X X X X X i n                … 請協助這位分析師利用表2 判斷是否有嚴重的多重共線性，並說明模型1 是否合適？如果不合適，請詳細說明原因和判斷方法。（5 分） 表3 第二欄的定義，若SSR（Xi|Xj）代表給定Xj 已在模型中，Xi 加入模型中的額外平方和（extra sum of squares）。請計算SSR （X1,X2,X3,X4,X5,X6）。最後一欄符號代表偏判定係數（coefficient of partial determination）。請說明偏判定係數 3 1 2 2 , , Y X X X R 的計算式及其意義。請利用表3 結果，建議分析師採用那些變數，詳細說明理由和判斷方法。（10 分） 請利用表3 結果及SST=560，SSR（X1,X2,X5）=551.568，計算SSR （X5|X1,X2）和偏判斷係數 5 1 2 2 , , Y X X X R 。（10 分）四、一位教師擬瞭解學生的測試表現是否受智商和教學方法所影響，以 60 名學生為實驗對象，在採用三種教學方法之下，獲得測試成績Y，智商X。前兩種教學方法M1, M2 變數定義如下。 1 2 1 1 2 0 0 M M         教學法1 教學法其他其他這位教師分別考慮的模型如下：模型1 0 1 , 1, , . i i i Y X i n        … 模型2 0 2 1 3 2 , 1, , . i i i i Y M M i n          … 模型3 0 1 2 1 3 2 , 1, , . i i i i i Y X M M i n            … 請使用表4 部分電腦輸出3 個模型的變異數分析（ANOVA, Analysis of Variance）報表來回答下列問題。 在考慮模型3 之下，請檢定智商X 該解釋變數對於解釋測試成績是否有顯著的解釋能力。請用顯著水準 0.05 = 檢定並詳述檢定統計量之值、決策法則、結論和所需之假設。t 分配臨界值， 0.975(56) 2.0032 t  。（10 分） 在考慮模型3 之下，請檢定教學方法M1 和M2 這兩個虛擬變數是否在模型3 對預測學生測試成績有效應。請在顯著水準 0.05 = ，檢定 0 2 3 0 H   : = = ，請詳述檢定統計量之值、決策法則、結論和所需之假設。F 分配左尾臨界值，0.95 0.95 , (1, 56) = 4.0130 (2, 56) = 3.1619 F F 。（10 分） 請使用表4 說明那一種教學方法最能提升測試成績，須說明論述。（5 分）表4 模型1 ANOVA表 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 1 816.928 816.928 14.72 0.0003 Error 58 3219.255 55.504 Total 59 4036.183 模型2 ANOVA表 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 2 2880.033 1440.017 71 P-value Error 57 1156.150 20.283 Total 59 4036.183 模型3 ANOVA表和參數估計 Analysis of Variance Source DF Sum of Squares Mean Square F value P-value Regression 3 3512.745 1170.915 125.27 <.0001 Error 56 523.438 9.347 Total 59 4036.183 模型3參數估計 Variable DF Estimate Standard Error t value P-value Intercept 1 56.024 4.306 13.01 <.0001 X 1 0.350 0.043 8.14 <.0001 M1 1 -15.770 0.967 -16.3 <.0001 M2 1 -11.943 0.972 -12.28 <.0001

(1)

(1) 5 分

(56) 10 分

5.0 4.1 1 12.8

4.8 3.3 1 12.8

4.3 5.2 1 12.0 9 3.9 2.9 3 13.6 10 4.7 3.9 1 13.9 11 4.5 3.6 3 14.4 12 4.3 3.6 2 12.3 13 7.0 4.1 3 16.1 14 6.7 3.7 3 16.1 15 5.8 4.1 3 15.5 16 5.6 4.4 3 15.5 17 4.8 4.6 3 13.8 18 5.5 4.1 3 13.8 19 4.3 3.1 1 11.3 20 3.4 3.4 2 10.9 21 6.6 4.8 3 15.1 22 5.3 3.8 3 13.5 23 5.0 3.7 2 10.8 24 4.1 4.0 2 9.5 25 5.7 4.7 3 12.7 26 4.7 4.9 2 11.6 27 5.1 5.1 1 11.7 28 5.0 5.1 2 11.9 29 5.0 4.4 2 10.8 30 2.9 3.9 2 8.5 總和 144.00 123.90 60 375.60 總平方和 722.02 523.03 142 4821.30 「總和」與「總平方和」表示該變數之值的加總及取平方後之加總。定義區域ܺଷ之指標變數如下： ܦଵ= ቊ 1 若該茶園屬於區域1 0 其他、ܦଶ= ቊ 1 若該茶園屬於區域2 0 其他、ܦଷ= ቊ 1 若該茶園屬於區域3 0 其他以茶葉每10 公克之價格為反應變數，考慮迴歸模型如下： ܻ= ߚ଴+ ߚଵܺଷ+ ߝ 模型A ܻ= ߚ଴+ ߚଵܦଶ+ ߚଶܦଷ+ ߝ 模型B ܻ= ߚ଴+ ߚଵܦଵ+ ߚଶܦଶ+ ߝ 模型C ܻ= ߚ଴+ ߚଵܦଵ+ ߚଶܦଶ+ ߚଷܦଷ+ ߝ 模型D ܻ= ߚଵܦଵ+ ߚଶܦଶ+ ߚଷܦଷ+ ߝ 模型E ߝ為隨機誤差項。 說明模型A、B、C、D 及E 所表達的意義，並決定那些模型是較合適的。（10 分） 依據模型B，得到以下估計結果： Estimate Std Err Intercept 11.7455 0.3789 ܦଶ -0.9580 0.5840 ܦଷ 2.8091 0.5359 R² = 0.6410 試詳細說明係數ߚଶ之估計值的意義，並計算此模型之迴歸標準誤的估計。（8 分） 試寫出模型C、D 及E 之所有迴歸係數的估計值。（12 分）承上題，令模型F 為 ܻ= ߚ଴+ ߚଵܺଵ+ ߚଶܺଶ+ ߚଷܦଶ+ ߚସܦଷ+ ߝ 。依據模型F，得到以下估計結果： Estimate Std Err Intercept 10.6039 1.4918 ܺଵ 0.8881 0.2752 ܺଶ -0.6561 0.3686 ܦଶ -0.9285 0.5097 ܦଷ 1.6658 0.5853 R² = 0.7473 若有一茶園位於區域1，且其因素甲與因素乙的分數皆為4.5。該品種之茶葉包裝方式為500 公克一盒，請估計一盒的售價。（4 分） 若將反應變數的單位改為茶葉每公斤之價格，寫出此迴歸模型之係數估計結果及其標準誤（如表格中之Estimate 與Std Err）。（8 分） 在顯著水準為0.05 下，檢定ߚଵ與ߚଶ是否同時等於0。（8 分）若迴歸分析得到以下變異數分析（Analysis of variance, ANOVA）表： Source of variation Degrees of freedom Sum of squares Mean square F Regression （1）（6）（8）（13） ܺଵ （2） 33.2 （9）（14） ܺଶ|ܺଵ （3） 15.3 （10）（15） ܺଷ|ܺଵ, ܺଶ （4） 22.2 （11）（16） Error （5）（7）（12） Total 29 106.3 請寫出ANOVA 表中（1）至（16）的值。（16 分） 在顯著水準為0.05 下，詳述ANOVA 表中（13）至（16）所提供之檢定的意義與結果。（14 分）考慮p 個解釋變數（ܺଵ、ܺଶ、… 、ܺ௣），n 個觀測值的複迴歸模型如下： ܻ௜= ߚ଴+ ߚଵܺଵ௜+ ߚଶܺଶ௜+ … + ߚ௣ܺ௣௜+ ߝ௜， i=1, 2, …, n 試以上述模型詳述共線性的意義，當共線性現象發生時所可能導致之影響。（10 分） 詳述變異膨脹因子（variance inflation factor, VIF）之定義及其判斷準則。（10 分）【附表】F 分配表

(1)

(8)

(2)

(9)

(3)

(10)

(4)

(11)

(5)

(12)

(1)

(16) 16 分

(13)

(16) 14 分

統計 111 年其他科目

國文外國文(英文)抽樣方法抽樣方法與迴歸分析法學知識法學知識與英文統計學統計實務(以實例命題)經濟學資料處理公民與英文統計學大意資料處理大意統計學概要統計實務概要經濟學概要資料處理概要統計實務概要(以實例命題)英文中華民國憲法與英文策略規劃與問題解決統計學研究統計實務研究(以實例命題)統計實務(以實務命題)企業管理概要鐵路法概要中華民國憲法概要中華民國憲法公民與本國史地大意公共衛生學概要專業知識測驗(統計學概要)微生物學概要流行病學概要綜合知識測驗(一)(中華民國憲法概要、本國歷史、地球科學)綜合知識測驗(二)(法學緒論、數的推理)政府統計線性模式統計實務公共衛生學專業知識測驗(統計學、資料處理)流行病學生物統計學綜合知識測驗(一)(中華民國憲法、法學緒論、數的推理)綜合知識測驗(二)(本國歷史、地球科學、英文)醫用微生物及免疫學醫療制度與衛生法規

查看所有考試的「迴歸分析」考古題 →

本頁資料來源：考選部歷屆試題·整理提供：法律人 LawPlayer· lawplayer.com