lawpalyer logo

統計 113 年抽樣方法與迴歸分析考古題

民國 113 年(2024)統計「抽樣方法與迴歸分析」考試題目,共 6 題 | 資料來源:考選部

0 題選擇題 + 6 題申論題

有母體如下: i 1
200 20 150 30
200 40 100 20
100 20 200 50 其中ܰ௛表示第ℎ層的母體大小,݊௛表示第ℎ層的樣本大小,ݕത௛表示第ℎ層的 樣本平均數,ݏ௛表示第ℎ層的樣本標準差。試求:(每小題5 分,共25 分) 每一層母體平均數的分層估計值。 抽樣母體平均數的分層估計值。 分層估計量標準誤的估計值。 抽樣母體平均數的95%近似誤差界限ܤ。 抽樣母體平均數的95%近似信賴區間。(註:ܼ଴.଴ଶହ= 1.96)。 對一組樣本大小݊= 100的資料配適一複迴歸模型 ܻ௜= ߚ଴+ ߚଵܺଵ௜+ ߚଶܺଶ௜+ ߚଷܺଷ௜+ ߳௜, 其中߳௜為iid ܰ(0, ߪଶ)。進行分析後,得到如下結果: ߪො= 5,ݏ= ට ଵ ௡ିଵ∑ (ܻ௜−ܻത)ଶ ௡ ௜ୀଵ = 10 。 依據前述資訊,完成下列變異數分析表(將此表繪製於試卷上,並寫 出詳細計算過程,再將結果填入表中):(9 分) 變異來源 平方和 自由度 均方 ܨ 迴歸 (a) (d) (g) (i) 誤差 (b) (e) (h) 總和 (c) (f) 若要檢定ߚଵ,ߚଶ,ߚଷ是否同時為0,請列出虛無假設、對立假設、ܨ值 的分配(需標明自由度)、以及在顯著水準ߙ= 0.05下拒絕虛無假設的 條件。(8 分) 計算ܴଶ,並說明其意義。(8 分) 考慮配適一簡單線性迴歸模型:ܻ௜= ߚ଴+ ߚଵܺ௜+ ߳௜,݅= 1, ⋯, ݊,並假設 ߳௜為iid ܰ(0, ߪଶ)。 請寫出模型中的應變數與自變數。(5 分) 請問iid 是那三個英文字的縮寫,是代表什麼假設?請詳細說明。(5 分) 若以最小平方估計式ߚመ଴及ߚመଵ得到ܻ෠௜= ߚመ଴+ ߚመଵܺ௜,且令݁௜= ܻ௜−ܻ෠௜。請 問∑ ܺ௜݁௜= ௡ ௜ୀଵ ?請詳細列出推導過程。(15 分)
yi 10 30 10 50 考慮以下設計於該母體中選擇兩個樣本: 將母體分為(1, 2)及(3, 4)兩組。 以簡單隨機抽樣選擇一個母體單元i,觀察得yi。 若yi>20,則以i所在該組之另一單元為第二個樣本單元,反之若yi≤20, 則由另一組隨機選擇第二個樣本單元。例如若第一個被選到的單元是 第1 個單元,則下一個單元則從第3 跟第4 個單元中隨機選擇,若第 一個被選擇到的是第4 個單元,則第二個被選單元必須是第3 個單元。 請回答下列問題:(每小題5 分,共20 分) 請問單元2 之包含機率(inclusion probability),亦即在本設計下選擇 之樣本組合中包含單元2 之機率。 若以觀察值樣本平均y 為母體平均µ 之估計量,請問該估計量在本設 計及本母體下是否不偏? 請計算y 之均方誤(mean squared error)。 請計算y 之變異數。 二、人行道垃圾筒的設置可以方便行人處理隨身垃圾,但也會因為附近住家 丟棄居家垃圾而造成髒亂,某里長為了解里民是否贊成增設人行道垃圾 筒,對里民進行一項問卷調查。該里家戶共950 戶,居住狀況可以分為 獨棟別墅10 戶,每棟4~5 戶之舊式公寓50 棟共240 戶,以及集合式 大樓4 座共700 戶三類。抽樣設計及觀察之樣本資料彙整如下: 獨棟別墅之10 戶全查。贊成比例0.2。 以簡單隨機抽樣取出不放回選擇5 棟舊式公寓,再調查所選公寓中之 全體住戶。各樣本公寓戶數及贊成之比例如下: 公寓編號公寓戶數贊成比例 15 4 1 27 4 0.5 35
1 39 5 0.6 47 5 0 每座集合式大樓以簡單隨機抽樣取出不放回各選擇20 戶。各大樓戶 數及贊成之樣本比例如下: 大樓編號戶數贊成比例 1 75 0.2 2 400 0.3 3 100 0.2 4 125 0.4 請回答下列問題: 請問舊式公寓住戶之抽樣設計為何?並請以不偏估計推估舊式公寓 住家贊成之比例,並推估該不偏估計量之變異數估計。(12 分) 請問集合式大樓住戶之抽樣設計為何?請以不偏估計推估集合式大 樓住家贊成之比例,並推估該不偏估計量之變異數估計。(12 分) 請估計本里住家贊成之比例以及該估計量在95%信心水準下之最大 誤差(z0.025=1.96)。(6 分) 三、教師收集30 位學生考試成績(Y)與讀書時間(X)資料,用以了解兩者 之間的關係,得到以下的數據: 30 30 30 30 2 2 1 1 1 1 396, 1,644.302, 5,852, 94,202.131, i i i i i i i i x y x y             30 1 23,255.832 * i i i x y    以Y 做為應變數(dependent variable),X 做為自變數(independent variable),假設簡單線性迴歸模型為 0 1 i i i Y X       ,其中 i為相互 獨立且具常態分配 2 N(0, )  的隨機誤差,試以最小平方法(least squares method)求出 0 及 1 的估計值。(8 分) 若以 * * , i i i i x y x x y y x y s s     分別做為新的自變數及新的應變數(其中 ,x y 為原本資料的樣本平均數, , x y s s 為原本資料的樣本標準差),建 立新的迴歸模型 * * * * * 0 1 i i i Y X       ,試以最小平方法求出 * 0 及 * 1 的 估計值。(8 分) 若學生的居住地區分為北、中、南三個地區,今定義三個虛擬變數 (dummy variable)D1, D2, D3,其中D1=1 代表居住北部,D1=0 代表 其他;D2=1 代表居住中部,D2=0 代表其他;D3=1 代表居住南部,D3=0 代表其他。如果以Y 做為應變數,X, D1, D2, D3 做為自變數建立複迴 歸模型,請問有何問題?(4 分) 如果以Y 做為應變數,X, D1, D2 做為自變數建立的複迴歸方程式為  1 2 20.03 2.02 1.03 3.12 Y X D D     ,試求以ܻ做為應變數,X, D2, D3 做 為自變數建立的複迴歸方程式為何?(5 分) 四、利用20 個樣本,計算複迴歸模型 0 1 1 2 2 3 3 Y X X X           參數估 計如下: 估計值(estimate) 標準誤(standard error) 0  20.03 10.15 1  2.02 1.05 2  -1.03 2.01 3  3.12 1.56 並計算出複判定係數(coefficient of multiple determination)為R2=0.8。 計算並解釋調整複判定係數(adjusted coefficient of multiple determination)。其與複判定係數的差異為何?(8 分) 在顯著水準α=0.05 下,試檢定 0 1 2 3 : 0 H       vs. 1 : i H 不全為0, i=1, 2, 3。(10 分) 在顯著水準α=0.05 下,試檢定 0 3 : 0 H  vs. 1 3 : 0 H  。(7 分) 參考之查表值: F0.05(3, 16)=3.239, F0.05(3, 18)=3.160, F0.05(3, 20)=3.098 t0.05(16)=1.746, t0.05(18)=1.734, t0.05(20)=1.725 t0.025(16)=2.120, t0.025(18)=2.101, t0.025(20)=2.086
(16)
(18)
(20)
(16)
(18)
(20)