lawpalyer logo

抽樣方法與迴歸分析考古題|歷屆國考試題彙整

橫跨多種國家考試的抽樣方法與迴歸分析歷屆試題(選擇題 + 申論題)

年份:

統計 15 題

在一地區抽樣調查400 人,其中有40 人使用A 品牌手機。 試求此地區使用A 品牌手機人數比例p 的95%信賴區間(註: 0.025 1.96 Z  )。(10 分) 若誤差 04 ˆ 0. e p p    ,則在95%的信賴水準下,樣本大小n 至少應 為多少?(15 分)
某市政府若想估算現有樹木植栽之綠化的社區總面積(以平方公尺計), 由於綠化面積隨社區規模大小而有很大差異,決定以社區規模先進行分 層。若該市共有280 個社區,依規模分為四類(分別為A, B, C, D),採 用比例配置(proportional allocation)法進行分層隨機抽樣得以下結果: 社區規模分類(層) A B C D ܰ௜ 96 82 62 40 ݊௜ 16 13 10 6 ݕത௜ 183.6 383.0 590.5 772.4 ݏ௜ ଶ 1071.9 9054.8 16794.2 72376.3
某位統計學家想估計A 鎮居民每月生活花費。設該鎮有 120 N  鄰,此統 計學家隨機抽出 4 n  鄰,再由其中抽出數戶,得資料如下:(單位:千元) 每鄰戶數 i M 樣本戶數 i m iy 80 8 16 47 5 30 62 6 21 39 4 45 試求: 該鎮居民每月平均生活花費Y 的比例機率兩階段估計值。(7 分) 該鎮居民每月平均生活花費Y 的95%近似信賴區間。(18 分)
i i i i N y s 、n、與 分別為第i 層的母體數、樣本數、樣本平均數及樣本變異 數,i=A, B, C, D。 估計該市綠化社區的總面積。(5 分) 針對小題的估計結果,計算其95%近似誤差界限。(10 分) 如果使用奈曼配置(Neyman allocation),在5000 平方公尺的估計誤差 的範圍內,求一個近似的樣本量來達到小題的誤差界限。(15 分) 二、某市政府民政局制訂抽樣計劃,藉以估算所屬某項業務的每週申辦數 量。該民政局決定先對該市的20 個行政區隨機抽出五個區,然後再自抽 中的各區內的里進行隨機抽樣。此兩階段聚類樣本(two-stage cluster sample)得到以下統計結果: 區 里數 抽樣里數 ݕത௜ ݏ௜ ଶ 1 45 9 102 20 2 36 4 90 16
統計學家對某組數據,以最小平方法所配適的迴歸線為: 0 1 1 ˆ ˆ ˆi i y x     其中最小平方估計式 1 1 1 1 1 1 1 2 1 1 1 ˆ ( )( ) ( ) n i i x y i n x x i i x x y y S S x x           。但實際上,反應值 iy 還會受到第二個變數 2i x 影響,因此真實的迴歸線如下: 0 1 1 2 2 ( ) i i i E y x x       在此情形下,請問以最小平方估計式 1ˆ來估計 1 的偏誤量(bias)為多 少?請詳細列出偏誤量的數學式及其推導過程。(25 分)
22
簡單線性迴歸模型如下: i 0 1 i i Y X     ε , i 1, ,n  其中iε 為iid 且服從 2 N(0,σ )。今某高中老師收集12 位學生的英文成績 (X)及數學成績(Y)如下: X 65 63 68 65 66 65 68 67 72 67 70 63 Y 63 65 71 64 68 63 65 66 70 68 69 67 請以此資料配適簡單線性迴歸模型。(10 分) 以所配適的模型,預測當學生英文成績為69 時,數學成績為何?(5 分) 請以α 0.05  ,進行雙尾檢定 0 1 H : 0 , 1 1 H : 0  。請寫出詳細檢定 過程與結果(註:10,0.025 t 2.2281  ;11,0.025 t 2.2010  ;12,0.025 t 2.1788  )。 (10 分)
69 22 4 18 4 94 26
28 2 120 32 2 i i y s 與 分別為第i 區該項業務的平均每週申辦數及樣本變異數 估算該業務平均的每週申辦數量。(5 分) 計算95%近似誤差界限。(15 分) 三、某市政府工務單位欲瞭解其約聘僱人員的工作滿意度分數Y(分數愈高 滿意度愈高)之影響因素,考慮以下解釋變數: 1 X :工作年資(年) 2 X :薪資(千元) 及學歷(分「高中及以下」、「大專」、「研究所及以上」等三類),並定義 變數如下: 3 4 1 1 0 0 X X         , 若蒐集30 位約聘僱人員的資料,將Y 對 1 2 3 4 X X X X 和 、、 進行迴歸分析, 得到以下迴歸模型的估計: 估計值 標準誤 截距項 13.24 7.29 1 X 8.69 2.56 2 X 1.35 0.38 3 X 4.92 2.10 4 X 5.89 4.10 SST=989.7,s=4.8 SST 為總變異平方和(total sum of squares),s 為迴歸誤差之標準差的估 計值。回答以下問題: 說明所建立的迴歸模型及其所需誤差的假設。(6 分) 分別說明 3 X 與 4 X 之估計的迴歸係數的意義。(6 分) 以顯著水準為0.05,分別檢定 3 X 與 4 X 的迴歸係數之顯著性。(10 分) 寫出此配適模型的變異數分析(analysis of variance)表,並詳細說明 計算過程。(10 分) 以顯著水準為0.05,檢定此迴歸模型之所有解釋變數的係數是否皆等 於0。(6 分) 計算調整的判定係數(adjusted coefficient of determination)。(6 分) 說明均方誤(mean squared error,MSE)的定義與意義,並計算此配 適模型的MSE 值。(6 分) 大專學歷 其他 研究所及以上學歷 其他 附表一: α tα 附表二:
有母體如下: i 1
200 20 150 30
200 40 100 20
100 20 200 50 其中ܰ௛表示第ℎ層的母體大小,݊௛表示第ℎ層的樣本大小,ݕത௛表示第ℎ層的 樣本平均數,ݏ௛表示第ℎ層的樣本標準差。試求:(每小題5 分,共25 分) 每一層母體平均數的分層估計值。 抽樣母體平均數的分層估計值。 分層估計量標準誤的估計值。 抽樣母體平均數的95%近似誤差界限ܤ。 抽樣母體平均數的95%近似信賴區間。(註:ܼ଴.଴ଶହ= 1.96)。 對一組樣本大小݊= 100的資料配適一複迴歸模型 ܻ௜= ߚ଴+ ߚଵܺଵ௜+ ߚଶܺଶ௜+ ߚଷܺଷ௜+ ߳௜, 其中߳௜為iid ܰ(0, ߪଶ)。進行分析後,得到如下結果: ߪො= 5,ݏ= ට ଵ ௡ିଵ∑ (ܻ௜−ܻത)ଶ ௡ ௜ୀଵ = 10 。 依據前述資訊,完成下列變異數分析表(將此表繪製於試卷上,並寫 出詳細計算過程,再將結果填入表中):(9 分) 變異來源 平方和 自由度 均方 ܨ 迴歸 (a) (d) (g) (i) 誤差 (b) (e) (h) 總和 (c) (f) 若要檢定ߚଵ,ߚଶ,ߚଷ是否同時為0,請列出虛無假設、對立假設、ܨ值 的分配(需標明自由度)、以及在顯著水準ߙ= 0.05下拒絕虛無假設的 條件。(8 分) 計算ܴଶ,並說明其意義。(8 分) 考慮配適一簡單線性迴歸模型:ܻ௜= ߚ଴+ ߚଵܺ௜+ ߳௜,݅= 1, ⋯, ݊,並假設 ߳௜為iid ܰ(0, ߪଶ)。 請寫出模型中的應變數與自變數。(5 分) 請問iid 是那三個英文字的縮寫,是代表什麼假設?請詳細說明。(5 分) 若以最小平方估計式ߚመ଴及ߚመଵ得到ܻ෠௜= ߚመ଴+ ߚመଵܺ௜,且令݁௜= ܻ௜−ܻ෠௜。請 問∑ ܺ௜݁௜= ௡ ௜ୀଵ ?請詳細列出推導過程。(15 分)
yi 10 30 10 50 考慮以下設計於該母體中選擇兩個樣本: 將母體分為(1, 2)及(3, 4)兩組。 以簡單隨機抽樣選擇一個母體單元i,觀察得yi。 若yi>20,則以i所在該組之另一單元為第二個樣本單元,反之若yi≤20, 則由另一組隨機選擇第二個樣本單元。例如若第一個被選到的單元是 第1 個單元,則下一個單元則從第3 跟第4 個單元中隨機選擇,若第 一個被選擇到的是第4 個單元,則第二個被選單元必須是第3 個單元。 請回答下列問題:(每小題5 分,共20 分) 請問單元2 之包含機率(inclusion probability),亦即在本設計下選擇 之樣本組合中包含單元2 之機率。 若以觀察值樣本平均y 為母體平均µ 之估計量,請問該估計量在本設 計及本母體下是否不偏? 請計算y 之均方誤(mean squared error)。 請計算y 之變異數。 二、人行道垃圾筒的設置可以方便行人處理隨身垃圾,但也會因為附近住家 丟棄居家垃圾而造成髒亂,某里長為了解里民是否贊成增設人行道垃圾 筒,對里民進行一項問卷調查。該里家戶共950 戶,居住狀況可以分為 獨棟別墅10 戶,每棟4~5 戶之舊式公寓50 棟共240 戶,以及集合式 大樓4 座共700 戶三類。抽樣設計及觀察之樣本資料彙整如下: 獨棟別墅之10 戶全查。贊成比例0.2。 以簡單隨機抽樣取出不放回選擇5 棟舊式公寓,再調查所選公寓中之 全體住戶。各樣本公寓戶數及贊成之比例如下: 公寓編號公寓戶數贊成比例 15 4 1 27 4 0.5 35
1 39 5 0.6 47 5 0 每座集合式大樓以簡單隨機抽樣取出不放回各選擇20 戶。各大樓戶 數及贊成之樣本比例如下: 大樓編號戶數贊成比例 1 75 0.2 2 400 0.3 3 100 0.2 4 125 0.4 請回答下列問題: 請問舊式公寓住戶之抽樣設計為何?並請以不偏估計推估舊式公寓 住家贊成之比例,並推估該不偏估計量之變異數估計。(12 分) 請問集合式大樓住戶之抽樣設計為何?請以不偏估計推估集合式大 樓住家贊成之比例,並推估該不偏估計量之變異數估計。(12 分) 請估計本里住家贊成之比例以及該估計量在95%信心水準下之最大 誤差(z0.025=1.96)。(6 分) 三、教師收集30 位學生考試成績(Y)與讀書時間(X)資料,用以了解兩者 之間的關係,得到以下的數據: 30 30 30 30 2 2 1 1 1 1 396, 1,644.302, 5,852, 94,202.131, i i i i i i i i x y x y             30 1 23,255.832 * i i i x y    以Y 做為應變數(dependent variable),X 做為自變數(independent variable),假設簡單線性迴歸模型為 0 1 i i i Y X       ,其中 i為相互 獨立且具常態分配 2 N(0, )  的隨機誤差,試以最小平方法(least squares method)求出 0 及 1 的估計值。(8 分) 若以 * * , i i i i x y x x y y x y s s     分別做為新的自變數及新的應變數(其中 ,x y 為原本資料的樣本平均數, , x y s s 為原本資料的樣本標準差),建 立新的迴歸模型 * * * * * 0 1 i i i Y X       ,試以最小平方法求出 * 0 及 * 1 的 估計值。(8 分) 若學生的居住地區分為北、中、南三個地區,今定義三個虛擬變數 (dummy variable)D1, D2, D3,其中D1=1 代表居住北部,D1=0 代表 其他;D2=1 代表居住中部,D2=0 代表其他;D3=1 代表居住南部,D3=0 代表其他。如果以Y 做為應變數,X, D1, D2, D3 做為自變數建立複迴 歸模型,請問有何問題?(4 分) 如果以Y 做為應變數,X, D1, D2 做為自變數建立的複迴歸方程式為  1 2 20.03 2.02 1.03 3.12 Y X D D     ,試求以ܻ做為應變數,X, D2, D3 做 為自變數建立的複迴歸方程式為何?(5 分) 四、利用20 個樣本,計算複迴歸模型 0 1 1 2 2 3 3 Y X X X           參數估 計如下: 估計值(estimate) 標準誤(standard error) 0  20.03 10.15 1  2.02 1.05 2  -1.03 2.01 3  3.12 1.56 並計算出複判定係數(coefficient of multiple determination)為R2=0.8。 計算並解釋調整複判定係數(adjusted coefficient of multiple determination)。其與複判定係數的差異為何?(8 分) 在顯著水準α=0.05 下,試檢定 0 1 2 3 : 0 H       vs. 1 : i H 不全為0, i=1, 2, 3。(10 分) 在顯著水準α=0.05 下,試檢定 0 3 : 0 H  vs. 1 3 : 0 H  。(7 分) 參考之查表值: F0.05(3, 16)=3.239, F0.05(3, 18)=3.160, F0.05(3, 20)=3.098 t0.05(16)=1.746, t0.05(18)=1.734, t0.05(20)=1.725 t0.025(16)=2.120, t0.025(18)=2.101, t0.025(20)=2.086
(16)
(18)
(20)
(16)
(18)
(20)