抽樣方法與迴歸分析考古題

資料由法律人 LawPlayer整理提供·橫跨多種國考 / 法律人 LawPlayer 編輯整理

抽樣方法與迴歸分析考古題｜歷屆國考試題彙整

橫跨多種國家考試的抽樣方法與迴歸分析歷屆試題（選擇題 + 申論題）

年份：

統計 15 題

在一地區抽樣調查400 人，其中有40 人使用A 品牌手機。 試求此地區使用A 品牌手機人數比例p 的95%信賴區間（註： 0.025 1.96 Z  ）。（10 分） 若誤差 04 ˆ 0. e p p    ，則在95%的信賴水準下，樣本大小n 至少應為多少？（15 分）

某市政府若想估算現有樹木植栽之綠化的社區總面積（以平方公尺計），由於綠化面積隨社區規模大小而有很大差異，決定以社區規模先進行分層。若該市共有280 個社區，依規模分為四類（分別為A, B, C, D），採用比例配置（proportional allocation）法進行分層隨機抽樣得以下結果：社區規模分類（層） A B C D ܰ௜ 96 82 62 40 ݊௜ 16 13 10 6 ݕത௜ 183.6 383.0 590.5 772.4 ݏ௜ ଶ 1071.9 9054.8 16794.2 72376.3

某位統計學家想估計A 鎮居民每月生活花費。設該鎮有 120 N  鄰，此統計學家隨機抽出 4 n  鄰，再由其中抽出數戶，得資料如下：（單位：千元）每鄰戶數 i M 樣本戶數 i m iy 80 8 16 47 5 30 62 6 21 39 4 45 試求： 該鎮居民每月平均生活花費Y 的比例機率兩階段估計值。（7 分） 該鎮居民每月平均生活花費Y 的95%近似信賴區間。（18 分）

i i i i N y s 、n、與分別為第i 層的母體數、樣本數、樣本平均數及樣本變異數，i=A, B, C, D。 估計該市綠化社區的總面積。（5 分） 針對小題的估計結果，計算其95%近似誤差界限。（10 分） 如果使用奈曼配置（Neyman allocation），在5000 平方公尺的估計誤差的範圍內，求一個近似的樣本量來達到小題的誤差界限。（15 分）二、某市政府民政局制訂抽樣計劃，藉以估算所屬某項業務的每週申辦數量。該民政局決定先對該市的20 個行政區隨機抽出五個區，然後再自抽中的各區內的里進行隨機抽樣。此兩階段聚類樣本（two-stage cluster sample）得到以下統計結果：區里數抽樣里數 ݕത௜ ݏ௜ ଶ 1 45 9 102 20 2 36 4 90 16

統計學家對某組數據，以最小平方法所配適的迴歸線為： 0 1 1 ˆ ˆ ˆi i y x     其中最小平方估計式 1 1 1 1 1 1 1 2 1 1 1 ˆ ( )( ) ( ) n i i x y i n x x i i x x y y S S x x           。但實際上，反應值 iy 還會受到第二個變數 2i x 影響，因此真實的迴歸線如下： 0 1 1 2 2 ( ) i i i E y x x       在此情形下，請問以最小平方估計式 1ˆ來估計 1 的偏誤量（bias）為多少？請詳細列出偏誤量的數學式及其推導過程。（25 分）

簡單線性迴歸模型如下： i 0 1 i i Y X     ε , i 1, ,n  其中iε 為iid 且服從 2 N(0,σ )。今某高中老師收集12 位學生的英文成績（X）及數學成績（Y）如下： X 65 63 68 65 66 65 68 67 72 67 70 63 Y 63 65 71 64 68 63 65 66 70 68 69 67 請以此資料配適簡單線性迴歸模型。（10 分） 以所配適的模型，預測當學生英文成績為69 時，數學成績為何？（5 分） 請以α 0.05  ，進行雙尾檢定 0 1 H : 0 ， 1 1 H : 0  。請寫出詳細檢定過程與結果（註：10,0.025 t 2.2281  ；11,0.025 t 2.2010  ；12,0.025 t 2.1788  ）。（10 分）

69 22 4 18 4 94 26

28 2 120 32 2 i i y s 與分別為第i 區該項業務的平均每週申辦數及樣本變異數 估算該業務平均的每週申辦數量。（5 分） 計算95%近似誤差界限。（15 分）三、某市政府工務單位欲瞭解其約聘僱人員的工作滿意度分數Y（分數愈高滿意度愈高）之影響因素，考慮以下解釋變數： 1 X ：工作年資（年） 2 X ：薪資（千元）及學歷（分「高中及以下」、「大專」、「研究所及以上」等三類），並定義變數如下： 3 4 1 1 0 0 X X         ，若蒐集30 位約聘僱人員的資料，將Y 對 1 2 3 4 X X X X 和、、進行迴歸分析，得到以下迴歸模型的估計：估計值標準誤截距項 13.24 7.29 1 X 8.69 2.56 2 X 1.35 0.38 3 X 4.92 2.10 4 X 5.89 4.10 SST=989.7，s=4.8 SST 為總變異平方和（total sum of squares），s 為迴歸誤差之標準差的估計值。回答以下問題： 說明所建立的迴歸模型及其所需誤差的假設。（6 分） 分別說明 3 X 與 4 X 之估計的迴歸係數的意義。（6 分） 以顯著水準為0.05，分別檢定 3 X 與 4 X 的迴歸係數之顯著性。（10 分） 寫出此配適模型的變異數分析（analysis of variance）表，並詳細說明計算過程。（10 分） 以顯著水準為0.05，檢定此迴歸模型之所有解釋變數的係數是否皆等於0。（6 分） 計算調整的判定係數（adjusted coefficient of determination）。（6 分） 說明均方誤（mean squared error，MSE）的定義與意義，並計算此配適模型的MSE 值。（6 分）大專學歷其他研究所及以上學歷其他附表一： α tα 附表二：

有母體如下： i 1

200 20 150 30

200 40 100 20

100 20 200 50 其中ܰ௛表示第ℎ層的母體大小，݊௛表示第ℎ層的樣本大小，ݕത௛表示第ℎ層的樣本平均數，ݏ௛表示第ℎ層的樣本標準差。試求：（每小題5 分，共25 分） 每一層母體平均數的分層估計值。 抽樣母體平均數的分層估計值。 分層估計量標準誤的估計值。 抽樣母體平均數的95%近似誤差界限ܤ。 抽樣母體平均數的95%近似信賴區間。（註：ܼ଴.଴ଶହ= 1.96）。對一組樣本大小݊= 100的資料配適一複迴歸模型 ܻ௜= ߚ଴+ ߚଵܺଵ௜+ ߚଶܺଶ௜+ ߚଷܺଷ௜+ ߳௜，其中߳௜為iid ܰ(0, ߪଶ)。進行分析後，得到如下結果： ߪො= 5，ݏ= ට ଵ ௡ିଵ∑ (ܻ௜−ܻത)ଶ ௡ ௜ୀଵ = 10 。 依據前述資訊，完成下列變異數分析表（將此表繪製於試卷上，並寫出詳細計算過程，再將結果填入表中）：（9 分）變異來源平方和自由度均方 ܨ 迴歸 (a) (d) (g) (i) 誤差 (b) (e) (h) 總和 (c) (f) 若要檢定ߚଵ，ߚଶ，ߚଷ是否同時為0，請列出虛無假設、對立假設、ܨ值的分配（需標明自由度）、以及在顯著水準ߙ= 0.05下拒絕虛無假設的條件。（8 分） 計算ܴଶ，並說明其意義。（8 分）考慮配適一簡單線性迴歸模型：ܻ௜= ߚ଴+ ߚଵܺ௜+ ߳௜，݅= 1, ⋯, ݊，並假設 ߳௜為iid ܰ(0, ߪଶ)。 請寫出模型中的應變數與自變數。（5 分） 請問iid 是那三個英文字的縮寫，是代表什麼假設？請詳細說明。（5 分） 若以最小平方估計式ߚመ଴及ߚመଵ得到ܻ෠௜= ߚመ଴+ ߚመଵܺ௜，且令݁௜= ܻ௜−ܻ෠௜。請問∑ ܺ௜݁௜= ௡ ௜ୀଵ ？請詳細列出推導過程。（15 分）

yi 10 30 10 50 考慮以下設計於該母體中選擇兩個樣本： 將母體分為（1, 2）及（3, 4）兩組。 以簡單隨機抽樣選擇一個母體單元i，觀察得yi。 若yi>20，則以i所在該組之另一單元為第二個樣本單元，反之若yi≤20，則由另一組隨機選擇第二個樣本單元。例如若第一個被選到的單元是第1 個單元，則下一個單元則從第3 跟第4 個單元中隨機選擇，若第一個被選擇到的是第4 個單元，則第二個被選單元必須是第3 個單元。請回答下列問題：（每小題5 分，共20 分） 請問單元2 之包含機率（inclusion probability），亦即在本設計下選擇之樣本組合中包含單元2 之機率。 若以觀察值樣本平均y 為母體平均µ 之估計量，請問該估計量在本設計及本母體下是否不偏？ 請計算y 之均方誤（mean squared error）。 請計算y 之變異數。二、人行道垃圾筒的設置可以方便行人處理隨身垃圾，但也會因為附近住家丟棄居家垃圾而造成髒亂，某里長為了解里民是否贊成增設人行道垃圾筒，對里民進行一項問卷調查。該里家戶共950 戶，居住狀況可以分為獨棟別墅10 戶，每棟4～5 戶之舊式公寓50 棟共240 戶，以及集合式大樓4 座共700 戶三類。抽樣設計及觀察之樣本資料彙整如下： 獨棟別墅之10 戶全查。贊成比例0.2。 以簡單隨機抽樣取出不放回選擇5 棟舊式公寓，再調查所選公寓中之全體住戶。各樣本公寓戶數及贊成之比例如下：公寓編號公寓戶數贊成比例 15 4 1 27 4 0.5 35

1 39 5 0.6 47 5 0 每座集合式大樓以簡單隨機抽樣取出不放回各選擇20 戶。各大樓戶數及贊成之樣本比例如下：大樓編號戶數贊成比例 1 75 0.2 2 400 0.3 3 100 0.2 4 125 0.4 請回答下列問題： 請問舊式公寓住戶之抽樣設計為何？並請以不偏估計推估舊式公寓住家贊成之比例，並推估該不偏估計量之變異數估計。（12 分） 請問集合式大樓住戶之抽樣設計為何？請以不偏估計推估集合式大樓住家贊成之比例，並推估該不偏估計量之變異數估計。（12 分） 請估計本里住家贊成之比例以及該估計量在95%信心水準下之最大誤差（z0.025=1.96）。（6 分）三、教師收集30 位學生考試成績（Y）與讀書時間（X）資料，用以了解兩者之間的關係，得到以下的數據： 30 30 30 30 2 2 1 1 1 1 396, 1,644.302, 5,852, 94,202.131, i i i i i i i i x y x y             30 1 23,255.832 * i i i x y    以Y 做為應變數（dependent variable），X 做為自變數（independent variable），假設簡單線性迴歸模型為 0 1 i i i Y X       ，其中 i為相互獨立且具常態分配 2 N(0, )  的隨機誤差，試以最小平方法（least squares method）求出 0 及 1 的估計值。（8 分） 若以 * * , i i i i x y x x y y x y s s     分別做為新的自變數及新的應變數（其中 ,x y 為原本資料的樣本平均數， , x y s s 為原本資料的樣本標準差），建立新的迴歸模型 * * * * * 0 1 i i i Y X       ，試以最小平方法求出 * 0 及 * 1 的估計值。（8 分） 若學生的居住地區分為北、中、南三個地區，今定義三個虛擬變數（dummy variable）D1, D2, D3，其中D1=1 代表居住北部，D1=0 代表其他；D2=1 代表居住中部，D2=0 代表其他；D3=1 代表居住南部，D3=0 代表其他。如果以Y 做為應變數，X, D1, D2, D3 做為自變數建立複迴歸模型，請問有何問題？（4 分） 如果以Y 做為應變數，X, D1, D2 做為自變數建立的複迴歸方程式為  1 2 20.03 2.02 1.03 3.12 Y X D D     ，試求以ܻ做為應變數，X, D2, D3 做為自變數建立的複迴歸方程式為何？（5 分）四、利用20 個樣本，計算複迴歸模型 0 1 1 2 2 3 3 Y X X X           參數估計如下：估計值（estimate）標準誤（standard error） 0  20.03 10.15 1  2.02 1.05 2  -1.03 2.01 3  3.12 1.56 並計算出複判定係數（coefficient of multiple determination）為R2=0.8。 計算並解釋調整複判定係數（adjusted coefficient of multiple determination）。其與複判定係數的差異為何？（8 分） 在顯著水準α=0.05 下，試檢定 0 1 2 3 : 0 H       vs. 1 : i H 不全為0, i=1, 2, 3。（10 分） 在顯著水準α=0.05 下，試檢定 0 3 : 0 H  vs. 1 3 : 0 H  。（7 分）參考之查表值： F0.05(3, 16)=3.239, F0.05(3, 18)=3.160, F0.05(3, 20)=3.098 t0.05(16)=1.746, t0.05(18)=1.734, t0.05(20)=1.725 t0.025(16)=2.120, t0.025(18)=2.101, t0.025(20)=2.086

(16)

(18)

(20)

(16)

(18)

(20)

本頁資料來源：考選部歷屆試題·整理提供：法律人 LawPlayer· lawplayer.com