若以樣本y對x 做線性迴歸,可得到迴歸估計式
0
1
ˆ
ˆ
ˆyi
ix
。假設x、y
之樣本平均及標準差分別為x、y 、
xs 、
ys ,樣本相關係數為r。今先將
x 、y標準化,即:
*
i
i
x
x
x
x
s
,
*
i
i
y
y
y
y
s
然後以
*y 對
*x 做線性迴歸,得到
*
*
0
1
ˆi
i
y
x
。試求:
0
?(10 分)
1和
1ˆ的關係。(10 分)
r 和
1之關係。(5 分)
10
10
10
8
8.04
9.14
7.46
6.58
X 為前測成績,Y 為後測成績。假設甲乙兩班的前、後測成績關係分別為
甲:
01
11
Y
X
ε
乙:
02
12
Y
X
ε
下表資料中G 代表班別(G = 1 為甲班,G = 0 為乙班),令XG 為X 和
G 乘積。
Y
X
G
Y
X
G
5.3
4
1
8
8
8
8
6.95
8.14
6.77
5.76
3
0
10.4
9
1
15
8
0
9.2
8
1
9.4
5
0
10.1
9
1
13.1
6
0
7.3
6
1
9.1
3
0
4.3
3
1
17.7
11
0
9.7
9
1
7.3
7
0
6.3
6
1
10.2
10
0
6.6
5
1
19.4
12
0
9
9
1
13.6
9
0
我們以上表資料分別配適以下四組迴歸:M1:Y 對X 迴歸;M2:Y 對
G 迴歸;M3:Y 對X 和G 複迴歸;M4:Y 對X、G 和XG 複迴歸。變
異數分析結果如下:
M1: ˆY = 1.26 + 1.203 X
M2: ˆY = 11.78 - 3.94 G
Source
DF
Adj SS
F-Value
P-Val
Source
DF
Adj SS
F-Value
P-Val
Regression
1
202.24
26.48
0.00
Regression
1
77.72
5.34
0.033
X
1
202.24
26.48
0.00
G
1
77.72
5.34
0.033
Error
18
137.49
Error
18
262.01
14.56
Total
19
339.73
M3: ˆY = 3.39 + 1.133 X - 3.26 G
M4: ˆY = 2.52 + 1.251 X - 0.86 G - 0.343 XG
Source
DF
Adj SS
F-Value
P-Val
Source
DF
Adj SS
F-Value
P-Val
Regression
2
254.79
25.50
0.000
Regression
3
258.451
16.96
0.00
X
1
177.07
35.44
0.000
X
1
141.449
27.84
0.00
G
1
52.55
10.52
0.005
G
1
0.419
0.08
0.778
Error
17
84.94
4.997
XG
1
3.658
0.72
0.409
Error
16
81.284
5.080
在顯著水準0.05 下,試求:
檢定「兩班的Y 對X 關係是否平行(斜率相同)」,即
0
11
12
01
02
1
11
12
01
02
and
vs.
and
H
H
:
:
。(10 分)
檢定「兩班是否有相同之Y 對X 線性關係(相同的斜率及截距)」,即
0
11
12
01
02
1
0
and
vs.
H
H
H
:
:
為非。(15 分)
三、某資料有40 個觀察值,因變數為
1
40
,
,
y
y
,自變數為
1
40
,
,
x
x
,迴歸模
式
0
1
i
i
i
y
x
。
其檢定之有效性是建立在對
i的那些假設下?(10 分)
若
1
20)
(
,
,
x
x
為男生體重,
21
40
(
)
,
,
x
x
為女生體重,y 為其運動後
心跳頻率。已知男生體重的變異量一般較女生大。今以y 對x做簡單線
性迴歸,可能會違反中那些假設?(5 分)
若
1
10
,
,
x
x
是10 個人第1 年之測量值,
11
20
,
,
x
x
為其第2 年測量值,
21
30
,
,
x
x
為其第3 年測量值,31
40
,
,
x
x
為其第4 年測量值。以y 對x做
簡單線性迴歸的話,會違反中那些假設?(5 分)
13
13
13
8
7.58
8.74 12.74
7.71
9
9
9
8
8.81
8.77
7.11
8.84
連續變數Y 代表因變數藥效(越大代表成效越佳),自變數X 為類別變
數,代表A、B、C 三種藥物處方,三組人樣本數相同,各只接受其中一
種處方。
某軟體將X 轉成以下虛擬變數(dummy variable)
1
X 及
2
X :
1
1
0
0
X
A
X
X
B
X
C
當
當
當
,及
2
0
1
0
X
A
X
X
B
X
C
當
當
當
然後以Y 對
1
X 及
2
X 配適迴歸模式:
0
1
1
2
2
ε
Y
X
X
。請就以
下檢定結果比較三種藥物之藥效(如:何者顯著較佳,何者間無顯著
差別)。(15 分)
Term
Coef
SE Coef
t-Value
P-Value
Constant
8.200
0.732
11.20
0.000
1
X
-2.10
2.10
-1
0.32
2
X
4.50
1.03
4.35
0.000
另一種軟體轉虛擬變數的方式如下:
*
1
1
0
1
X
A
X
X
B
X
C
當
當
當
,及
*
2
0
1
1
X
A
X
X
B
X
C
當
當
當
然後以Y 對
*
1
X 及
*
2
X 配適迴歸模式:
*
*
1
1
2
2
ε
Y
X
X
。請就以下檢
定結果比較三種藥物之藥效。(15 分)
Term
Coef
SE Coef
t-Value
P-Value
Constant
8.200
0.732
11.20
0.000
*
1
X
-2.64
1.01
-2.61
0.009
*
2
X
3.50
1.01
3.46
0.000
一位統計分析師想瞭解身高(
iY ,以英寸為單位)是否可以用手掌張
開長度(
1
X ,以公分為單位)和性別(
3.1
4.1
1
9.8
3.5
3.9
1
12.6
X ,男性是1,女性是0)來
預測?他收集66 名大學生為樣本。所配適的線性迴歸模型如下:
0
1
1
2
2
,
1,
, .
i
i
i
i
Y
X
X
i
n
請依據表1 回答下列問題。
表1: ANOVA
Source
Sum of Squares
DF
Mean square
F test
Regression
840.8436
2
Error
(1)
(3)
(5)
(Lack of fit)
(2)
(4)
(Pure error)
283.8476
45
Total
1220.4394
65
請計算表1 中(1)−(5)所列的線性迴歸的ANOVA 相關訊息。(10 分)
在顯著水準5%下,請檢定身高是否與手掌張開長度
1
(
)
X
和性別
2
(
)
X
有線性關係存在。請列出虛無假設/對立假設、檢定統計量及
決策法則。在無需查表之下,你的建議結論為何?(5 分)
在顯著水準5%下,請檢定線性迴歸模型是否有顯著的缺適(lack
of fit)?以了解線性迴歸模型是否足以描述身高與手掌張開長度
1
(
)
X
和性別
2
(
)
X
之間的關係。請列出虛無假設/對立假設、檢定統
計量及決策法則。在無需查表之下,你的建議結論為何?請說明缺
適檢定所需要之假設。(10 分)
二、一位統計分析師分析奧林匹克男子田徑短跑200 公尺數據,包含1900 年
至2020 年間舉行的28 次男子200 公尺奧林匹克短跑比賽獲金牌的秒
數,其中第一次和第二次世界大戰期間沒有舉辦奧運會,而2020 年奧林
匹克運動會因為COVID-19 疫情實際是2021 年在日本東京舉行。因此
資料包含year(以年為單位)和Y(以秒為單位),其散布圖在圖1。
圖1 奧林匹克年份和男子田徑短跑200 公尺秒數散布圖
這位統計分析師重新定義變數,他把“西元年(year)”平減1963,並
定義新的解釋變數X,也就是X=year−1963。樣本相關資訊如下,其
中n 為樣本數,請依據這些資訊回答問題。
1
2
2
1
1
0.1429,
20.5582,
(
- )( - )=
888.2171,
(
- ) =36859.4286,
( - )
24.3354
n
XY
i
i
i
n
n
XX
i
YY
i
i
i
X
Y
S
X X
Y Y
S
X X
S
Y Y
請計算(
, )
X Y 的皮爾森相關係數。(5 分)
該統計分析師配適模型
0
1
i
i
i
Y
X
,此處
i是誤差項。請寫出
以最小平方估計法所得到的估計迴歸線,並推導共變異數
0ˆ和
1ˆ,
也就是
0
1
ˆ
ˆ
(
,
)
Cov
。(10 分)
在顯著水準
0.05
之下,請檢定
0
1
:
0
H
是否顯著?請詳述檢
定統計量之值、決策法則和結論。請問年份和獲金牌的秒數之間是
否存在線性關係?以此資料是否可以推論人類在田徑短跑越跑越
快?t 分配臨界值,0.025
0.025
(26)
2.0555,
(27)
2.0518
t
t
。(10 分)
(1)
(5)
(2)
(1)
(5) 10 分
(26)
(27) 10 分
4.8
4.7
1
11.9
一位統計分析師受託分析20 名年齡40~60 歲高血壓患者的血壓相關
數據,以評估可能影響血壓的重要因素,資料描述如下:
血壓(Y,反應變數,以mm Hg 為單位),年齡(
1
X ,以年為單位),
重量(
2
X ,公斤),體表面積(
3
X ,平方公尺),高血壓病史(
X ,
以年為單位),基礎脈搏(
3.1
3.6
1
11.1
X ,以每分鐘為單位),壓力指數(
5.5
5.1
1
9.3
X ,
0−100 為範圍)。部分統計套裝軟體輸出結果在表2 和表3。
表2
反應變數
5個解釋變數
判定係數ܴ
ଶ
X1
X2-X6
0.451
X2
X1, X3-X6
0.925
X3
X1-X2, X4-X6
0.905
X4
X1-X3, X5-X6
0.196
X5
X1-X4, X6
0.754
X6
X1-X5
0.416
表3
解釋變數
Type I SS
偏判定係數
X1
SSR(X1)
243.266
ܴ,భ
ଶ
0.4344
X2
SSR(X2|X1)
306.886
ܴ,మ|భ
ଶ
0.96891
X3
SSR(X3|X1,X2)
0.765
ܴ,య|భ,మ
ଶ
0.07763
X4
SSR(X4|X1,X2,X3)
0.250
ܴ,ర|భ,మ,య
ଶ
0.02755
X5
SSR(X5|X1,X2,X3,X4)
0.965
ܴ,ఱ|భ,మ,య,ర
ଶ
0.1092
X6
SSR(X6|X1,X2,X3,X4,X5)
1.023E-04
ܴ,ల|భ,మ,య,ర,ఱ
ଶ
1.3E-05
這位分析師一開始採用(1)式中模型1 的複迴歸分析,他擔心有多
重共線性(Multicollinearity)問題。
模型1:
1
1
2
2
3
3
4
4
5
5
6
6
,
1,
, .
(1)
i
i
i
i
i
i
i
i
Y
X
X
X
X
X
X
i
n
…
請協助這位分析師利用表2 判斷是否有嚴重的多重共線性,並說明
模型1 是否合適?如果不合適,請詳細說明原因和判斷方法。(5 分)
表3 第二欄的定義,若SSR(Xi|Xj)代表給定Xj 已在模型中,Xi 加
入模型中的額外平方和(extra sum of squares)。請計算SSR
(X1,X2,X3,X4,X5,X6)。最後一欄符號代表偏判定係數(coefficient of
partial determination)。請說明偏判定係數
3
1
2
2
,
,
Y X X
X
R
的計算式及其意
義。請利用表3 結果,建議分析師採用那些變數,詳細說明理由和
判斷方法。(10 分)
請利用表3 結果及SST=560,SSR(X1,X2,X5)=551.568,計算SSR
(X5|X1,X2)和偏判斷係數
5
1
2
2
,
,
Y X X
X
R
。(10 分)
四、一位教師擬瞭解學生的測試表現是否受智商和教學方法所影響,以
60 名學生為實驗對象,在採用三種教學方法之下,獲得測試成績Y,
智商X。前兩種教學方法M1, M2 變數定義如下。
1
2
1
1
2
0
0
M
M
教學法1
教學法
其他
其他
這位教師分別考慮的模型如下:
模型1
0
1
,
1,
, .
i
i
i
Y
X
i
n
…
模型2
0
2
1
3
2
,
1,
, .
i
i
i
i
Y
M
M
i
n
…
模型3
0
1
2
1
3
2
,
1,
, .
i
i
i
i
i
Y
X
M
M
i
n
…
請使用表4 部分電腦輸出3 個模型的變異數分析(ANOVA, Analysis
of Variance)報表來回答下列問題。
在考慮模型3 之下,請檢定智商X 該解釋變數對於解釋測試成績
是否有顯著的解釋能力。請用顯著水準
0.05
=
檢定並詳述檢定統
計量之值、決策法則、結論和所需之假設。t 分配臨界值,
0.975(56)
2.0032
t
。(10 分)
在考慮模型3 之下,請檢定教學方法M1 和M2 這兩個虛擬變數是否
在模型3 對預測學生測試成績有效應。請在顯著水準
0.05
=
,檢定
0
2
3 0
H
:
=
= ,請詳述檢定統計量之值、決策法則、結論和所需之假
設。F 分配左尾臨界值,0.95
0.95
,
(1, 56) = 4.0130
(2, 56) = 3.1619
F
F
。
(10 分)
請使用表4 說明那一種教學方法最能提升測試成績,須說明論述。
(5 分)
表4
模型1 ANOVA表
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F value
P-value
Regression
1
816.928
816.928
14.72
0.0003
Error
58
3219.255
55.504
Total
59
4036.183
模型2 ANOVA表
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F value
P-value
Regression
2
2880.033
1440.017
71
P-value
Error
57
1156.150
20.283
Total
59
4036.183
模型3 ANOVA表和參數估計
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F value
P-value
Regression
3
3512.745
1170.915
125.27
<.0001
Error
56
523.438
9.347
Total
59
4036.183
模型3參數估計
Variable
DF
Estimate
Standard Error
t value
P-value
Intercept
1
56.024
4.306
13.01
<.0001
X
1
0.350
0.043
8.14
<.0001
M1
1
-15.770
0.967
-16.3
<.0001
M2
1
-11.943
0.972
-12.28
<.0001
df2
27
4.2100
3.3541
28
4.1960
3.3404
402
3.8647
3.0182
403
3.8646
3.0181
t0.025(28)=-2.0484, t0.025(30)=-2.0422
一、一位主管欲知道碩士級分析師的月薪是否可以用年資來預測,以作為
未來給薪的參考。他收集了30個樣本觀察值,資料包含年資(X,以年
為單位)和月薪(Y,以千元為單位)。請依據下面數據和圖1回答問題。
1
2
2
1
1
5.34,
76,
(
- )( - )=
,
(
2198
232.072
21
- ) =
,
( - )
890
n
XY
i
i
i
n
n
XX
i
YY
i
i
i
X
Y
S
X X
Y Y
S
X X
S
Y Y
圖1
在配適
0
1
i
i
i
Y
X
的簡單線性迴歸方程式下,請利用最小平
方法計算參數β0 和β1 估計值(estimates )。如果將模型改為
1(
)
i
i
i
Y
X
X
,請寫出參數α和β1最小平方估計式(least-
squares estimators)及其估計標準誤(standard errors)。(12分)
假設
2
0
1
~
(
,
)
i
i
Y
N
X
,請在顯著水準
0.05
下,檢定
0
1
H :
0
。請試述檢定統計量之值、決策法則和結論。請寫出在應
用最大概似估計(Maximum likelihood estimation)法,ߪଶ的估計值。
請寫出利用最小平方法,ߪଶ的估計值。(10分)
請問年資是5年的碩士級分析師之平均薪資的95%信賴區間。(4分)
Y
X
二、一位分析師受託分析一組資料。資料來自於20位25歲至34歲的健康
女性,其中包括反應變數Y(身體脂肪)和三個解釋變數(X1:皮
褶厚度,X2:大腿圓周和X3:中臂圓周)用作預測身體脂肪。該分
析師初步配適一個迴歸模型如下:
模型1
0
1
1
2
2
(28)
(30) 12 分
若隨機變數(X,Y)為二維常態分配,且X之均數為
x
、變異數為
2
x
,Y之
均數為
y
、變異數為
2
y
,X與Y之相關係數為。
在給定
i
X
x
的情況下,Y之條件分配亦為常態分配,證明其均數為:
|
y
y x
y
i
x
x
x
,i=1,2,…,n
變異數表達為
2
2
2
|
1
y x
y
,n為觀測值個數。(12分)
若將上述的結果表達為解釋變數X及反應變數Y之簡單線性迴歸模型如
下:
0
1
i
i
i
Y
X
ε ,i=1,2,…,n
iε 為隨機誤差;亦即
2
i
0
1
|
,
i
i
i
Y
X
x
N
x
請將
0
、
1
及
2
重新以
x
、
2
x
、
y
、
2
y
與等符號表達之。(6分)
寫出iε 的分配。(4分)
證明
2
2
y
。並說明在何種的狀況下
2
2
y
。(8分)
若
XY
r
為變數X與Y之樣本相關係數,
2
R 為該迴歸模型之判定係數
(coefficient of determination),證明
2
2
XY
r
R
。(10分)
附表一
tα
附表二
3
1,
, 20.
i
i
i
i
i
Y
X
X
X
i
另外,表1計算解釋變數之間的解釋能力。
表1
反應變數
解釋變數
判定係數ܴଶ
ܺଵ
ܺଶ, ܺଷ
99.86%
ܺଶ
ܺଵ, ܺଷ
99.82%
ܺଷ
ܺଵ, ܺଶ
99.04%
請由表1計算變異數膨脹因子(variance inflation factor, VIF)評論該
分析師所配適的迴歸模型1是否合適?如果不合適,請詳細說明原
因和解決方法。(8分)
一位分析師受託分析影響縣市首長滿意度的重要因素。滿意度分數
Y(以1~10為評分範圍,分數愈高代表愈滿意)作為反應變數。該
分析師找到一些重要的解釋變數。依據他所配適的複迴歸模型,有
些預測值有超過10的情況。請問該分析師所配適的複迴歸模型是否
合適?如果不合適,請詳細說明原因和解決的方法。(6分)
一位分析師分析2017年1月至2019年12月的旅遊人數月資料。該分
析師配適的迴歸模型如下:
模型2
2
0
1
2
1
3
2
12
11
ln(
)
,
~ N(0,
)
iid
t
t
t
y
t
M
M
M
此處t 是時間,
t為獨立且具有共同分配其平均數為0變異數
2
的常
態分配,ܯ是虛擬變數,第i 個月為1,其他月份為0,i=1, 2,…, 11。
請說明在線性迴歸模型下,如何檢查誤差項的所有假設是否有違
反。圖2是模型2的標準化殘差值(studentized residual)對應時間的
殘差圖。請問該分析師所配適的複迴歸模型是否合適?如果不合
適,請詳細說明原因和解決的方法。(10分)
圖2
三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公
分為單位)和X 身高(以英吋為單位)的關係。所建立的簡單線性模
型如下:
0
1
,
1,
, .
i
i
i
Y
X
i
n
…
請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的
順序,第二欄是殘差值。
請說明何謂異常點(outlier)和高槓桿觀察值(high leverage
observation),及其之間的區別。(8分)
表2第三欄是標準化的殘差值(studentized residual)。請以此判斷是
否有異常點存在?請說明判斷準則。
表2第五欄是Student 化刪除殘差(Studentized deleted residuals,以
R-Student 表示)。第i 個R-Student 殘差是在假定將資料中的第i
個觀察值刪除,然後以剩下的n-1個觀察值來建立新的估計迴歸方
程式而標準化獲得的R-Student 殘差值。請以此判斷是否有異常點
存在?請說明判斷準則。(8分)
表2第六欄是hii(hat value),其公式為
2
2
1
(
)
1
(
)
i
ii
n
j
j
X
X
h
n
X
X
,
請問
1
n
ii
i
h
的值為何?請以此判斷是否有可能的高槓桿觀察值存
在?請說明判斷準則。表2的最後一欄,第八欄是DFFITS
(Difference in Fits)值。請以此判斷是否有可能的影響點(influential
observation)存在?請說明判斷準則。(8分)
表2
Obs
Residual
Student
Residual
Cook's D
R-
Student
Hat Diag
Cov
Ratio
DFFITS
H
1
0.541
0.443
0.011
0.438
0.101
1.173
0.147
2
0.906
0.718
0.009
0.712
0.035
1.070
0.136
3
-1.777
-1.410
0.041
-1.434
0.040
0.974
-0.293
0.390
0.308
0.002
0.304
0.033
1.097
0.056
-0.977
-0.772
0.010
-0.767
0.032
1.061
-0.140
-1.510
-1.194
0.024
-1.203
0.033
1.005
-0.222
1.490
1.179
0.024
1.186
0.033
1.007
0.219
-0.160
-0.127
0.000
-0.125
0.045
1.117
-0.027
9
1.023
0.809
0.011
0.804
0.032
1.057
0.147
10
-0.510
-0.403
0.003
-0.398
0.033
1.093
-0.073
11
1.957
1.563
0.067
1.602
0.052
0.956
0.374
12
0.157
0.125
0.000
0.123
0.052
1.125
0.029
13
1.023
0.809
0.011
0.804
0.032
1.057
0.147
14
0.556
0.444
0.005
0.438
0.050
1.110
0.101
15
-0.777
-0.614
0.006
-0.608
0.032
1.077
-0.111
16
-0.243
-0.192
0.001
-0.189
0.030
1.099
-0.034
17
-2.043
-1.632
0.073
-1.679
0.052
0.941
-0.392
18
-1.810
-1.458
0.078
-1.486
0.068
0.994
-0.402
19
0.140
0.110
0.000
0.109
0.031
1.101
0.019
20
2.356
1.944
0.236
2.041
0.111
0.926
0.721
21
0.623
0.522
0.022
0.516
0.141
1.221
0.209
22
0.490
0.388
0.003
0.382
0.033
1.093
0.071
23
0.790
0.627
0.008
0.620
0.039
1.083
0.125
24
-0.843
-0.697
0.031
-0.691
0.114
1.168
-0.248
25
-0.810
-0.641
0.007
-0.635
0.033
1.075
-0.117
26
1.490
1.179
0.024
1.186
0.033
1.007
0.219
27
0.490
0.388
0.003
0.382
0.033
1.093
0.071
28
-3.545
-3.437
3.274
-4.299
0.357
0.636
-3.200
29
0.089
0.073
0.000
0.072
0.086
1.168
0.022
30
0.257
0.203
0.001
0.200
0.030
1.098
0.035
31
-1.277
-1.013
0.021
-1.014
0.040
1.040
-0.207
32
1.323
1.065
0.040
1.067
0.066
1.061
0.283
33
0.190
0.153
0.001
0.151
0.068
1.144
0.041
四、一位統計分析師受託預測單位面積房價,欲了解房價受到那些因素所
影響。收集了408筆有關於單位面積房價,屋齡(X1,以年為單位),
到最近的地鐵站的距離(X2),便利商店數量(X3),房屋座落的緯度
(X4)和經度(X5)。擬考慮的模型如下:
模型1
0
1
1
2
2
3
3
4
4
5
5
,
1,
, .
i
i
i
i
i
i
i
Y
X
X
X
X
X
i
n
…
模型2
0
1
1
2
2
3
3
,
1,
, .
i
i
i
i
i
Y
X
X
X
i
n
…
模型3
0
1
1
2
2
4
4
5
5
,
1,
, .
i
i
i
i
i
i
Y
X
X
X
X
i
n
…
請使用表3部分電腦輸出三個模型的變異數分析表(ANOVA, Analysis
of Variance)報表來回答以下問題。
表3
模型1 ANOVA表
Response:Y
DF
Sum of
Mean
F value
P-value
squares
square
Model
5
44260
8852.03227
134.46
<.0001
Error
402
26465
65.83443
Corrected Total
407
70726
模型2 ANOVA表
Response:Y
DF
Sum of
Mean
F value
P-value
squares
square
Model
3
41703
13901
193.50
<.0001
Error
404
29023
71.83833
Corrected Total
407
70726
模型3 ANOVA表
Response:Y
DF
Sum of
Mean
F value
P-value
squares
square
Model
4
41879
10470
146.27
<.0001
Error
403
28847
71.57982
Corrected Total
407
70726
在考慮模型1之下,請檢定便利商店數量(X3)這個解釋變數是否
可以從給定模型1中刪除。請用顯著水準
0.05
檢定並敘述對立
假設、檢定統計量之值、決策法則和結論。(8分)
在考慮模型1之下,請檢定房屋座落的緯度(X4)和經度(X5)這兩
個解釋變數是否在模型1對預測單位面積房價有影響。亦即請用
0.05
檢定
0
4
5
H :
0
,並請敘述對立假設、檢定統計量之值、
決策法則和結論。(8分)
請計算模型1,2和3的調整的複判定係數R2(the adjusted R-squared)
並試述其意義。請敘述檢定,模型誤差項所需要的假設,並綜
合檢定結果,請說明在模型1,2和3中,何者模式為最佳模型。
(10分)
17 4.4513 3.5915
43 4.0670 3.2145
44 4.0617 3.2093
87 3.9506 3.1013
88 3.9493 3.1001
一、何謂多重共線性(multicollinearity)?多重共線性對估計結果有何
影響?如何偵測複迴歸模型中存在多重共線性?請詳述所需要的
判斷準則。(12 分)
一位分析師進行迴歸分析資料並配適複迴歸模型如(1)。
100
,
,1
,
7
7
1
1
0
"
"
=
+
+
+
+
=
i
X
X
Y
i
i
i
i
ε
β
β
β
(1)
所獲得初步結果如圖1。請用圖1 部分統計電腦套裝軟體輸出結
果,說明這位分析師所配適的模型是否合適?如果模型(1)不合
適,請說明原因並提供所有可以解決問題的方法。(10 分)
圖1
二、醫院分析師希望研究患者滿意度(Y)與患者年齡(X1,以年為單位),
疾病嚴重程度指數(X2)以及焦慮指數(X3)之間的關係。分析師隨
機選擇了46 名患者並收集了數據。請使用圖2 部分統計電腦套裝軟
體輸出結果來回答以下問題。
圖 2
請計算額外平方和(extra sum of squares)
=
)
,
|
(
(1)
(1)
(1) 10 分
34.310
0.365
0.328
6.625
B
ܺଶ
2
44.836
0.171
0.122
13.260
C
ܺଷ
2
33.557
0.379
0.343
6.150
D
ܺସ
2
50.735
0.062
0.006
16.977
E
ܺଵ、ܺଶ
1
2
X
X
X
SSR
?(4 分)
假設這位分析師採用模型是
i
i
i
i
X
X
Y
ε
β
β
β
+
+
+
=
3
3
1
1
0
(2)
該分析師想知道在模型(2)之下,增加疾病嚴重程度指數(X2)此額
外變數,解釋其在顯著水準α=5%下是否有顯著的貢獻,並敘述對
立假設、檢定統計量之值、決策法則和結論。(8 分)
假設這位分析師採用模型是
i
i
i
i
i
X
X
X
Y
ε
β
β
β
β
+
+
+
+
=
3
3
2
2
1
1
0
(3)
請檢定疾病嚴重程度指數(X2)和焦慮指數(X3)兩個解釋變數是
否可以從模型(3)中刪除,也就是在已經有患者年齡(X1)解釋變數
之下,解釋變數X2 和X3 可否從模型中移除?請在顯著水準α=5%
檢定,並協助敘述對立假設、檢定統計量之值、決策法則和結論。
在本小題的檢定問題中,請試述需要作何假設,才能執行這些統計
檢定。(10 分)
三、一位分析師考慮對三組數據配適一個簡單迴歸模型
i
i
i
X
Y
ε
β
β
+
+
=
1
0
,其中
0
β 、
1
β 為參數,ε 為隨機誤差,且假設其為
具均數0,標準差σ 之常態分配。
配適模型後,三組數據之殘差分析圖分別為3(a)、3(b)、3(c),請
分別說明配適迴歸模型是否恰當?若模型不合適或偏離模型假設
時,請指出不恰當之處並請提出修正的方法。(21 分)
在何種情況下,需要採用加權最小平方法(Weighted least squares)
估計未知的參數?請協助提供散佈圖和殘差圖說明。(7 分)
圖3(a) 標準化殘差時間序列圖(Standardized residuals vs. time)
圖3(b) 標準化殘差對預測值圖(Standardized residuals vs. ݕො)
圖3(c) 標準化殘差對預測值圖(Standardized residuals vs. ݕො)
(2)
(2) 8 分
(3)
(3) 10 分
24.695
0.543
0.486
2.565
F
ܺଵ、ܺଷ
3
25.019
0.537
0.479
2.769
G
ܺଵ、ܺସ
3
27.841
0.485
0.421
4.548
H
ܺଶ、ܺଷ
3
32.928
0.391
0.315
7.754
I
ܺଶ、ܺସ
3
43.507
0.195
0.095
14.422
J
ܺଷ、ܺସ
3
33.540
0.380
0.302
8.139
K
ܺଵ、ܺଶ、ܺଷ
一位資料分析師受託分析一組數據,想要了解一個特定基因,稱之
GT 基因,是否有影響老鼠斷奶時的重量。該分析師預計配適模型1
和模型2。
Y=斷奶時的重量(公克為單位)
X1=年齡(以日為單位)
X2=品種(品種A=1,B=0)
X3=GT 基因(有此基因=1,無此基因=0)
X4=性別(公老鼠=1,母老鼠=0)
模型1:
,
4
4
3
3
2
2
1
1
0
i
i
i
i
i
i
X
X
X
X
Y
ε
β
β
β
β
β
+
+
+
+
+
=
模型2:
,
2
1
22.277
0.588
0.506
3.041
L
ܺଵ、ܺଶ、ܺସ
4
24.694
0.543
0.452
4.564
M
ܺଵ、ܺଷ、ܺସ
4
23.862
0.559
0.470
4.040
N
ܺଶ、ܺଷ、ܺସ
4
31.562
0.416
0.300
8.893
O
ܺଵ、ܺଶ、ܺଷ、ܺସ
4
4
3
3
2
2
1
1
0
i
i
i
i
i
i
i
i
X
X
X
X
X
X
Y
ε
β
β
β
β
β
β
+
+
+
+
+
+
=
請使用圖4 和圖5 中部分統計電腦套裝軟體輸出變異數分析
(ANOVA, Analysis of Variance)回答下列問題:
請計算模型1 和模型2 的調整的複判定係數R2(the adjusted
R-squared)。試述其意義,並判斷何種模型為佳。(8 分)
在顯著水準5%下,請檢定「GT 基因」在模型1 中是否影響老鼠的
重量?(4 分)
請解釋在考慮模型1 下,請說明如何檢定老鼠的性別之兩條迴歸線
是相同的迴歸線。並請列出虛無假設、對立假設、檢定統計量及決
策法則。(4 分)
在顯著水準5%下,請檢定X1i X2i 相乘項在模型2 中是否對解釋反
應變數Y 有顯著貢獻?請試述虛無假設、檢定統計量之值、決策法
則和結論,以及所需要之假設。請解釋X1i X2i 該項在迴歸模型的意
義。(12 分)
圖4 模型1 的變異數分析
圖5 模型2 的變異數分析
22.212
72
0.589
0.4
5.000
表中p 為各模型中迴歸係數的個數,ܵܵܧ為該模型下所得的誤差平方和(error sum of
squares),ܴଶ為其判定係數(coefficient of determination),ܴ,
ଶ為調整的判定係數
(adjusted oef cient of determination),ܥ為Mallows’ ܥ criterion。
c
fi
一、若由ܺଶ與ܺଷ的散布圖判斷,該圖中可能有一個離群值。請將該離群值排除後,
重新計算ܺଶ與ܺ相關係數。(10 分)
下列問題皆在顯著水準為0.05 下,進行統計假設檢定:
ଷ
二、檢定模型A
ଵ的迴歸係數是否為0?(10
)
(下列的問題皆是在無離群值存在的狀況下作答。)
的ܺ
分
,寫
分
檢定
是否
0 分)
四、若SSReg(ܺ|ܺ)代表給定ܺ已在模型中,ܺ加入模型中的額外平方和(extra
sum of squares)。請分別計算SSReg(ܺଶ|ܺଵ)、SSReg(ܺଶ|ܺଷ)、SSReg(ܺଶ, ܺଷ|ܺଵ)、
SSReg(ܺଵ, ܺଶ|ܺଷ, ܺସ)。(12 分)
三、針對模型O
出其變異數
析表。
其迴歸係數
同時為0。(1
五、藉由迴歸估計結果及報表,詳細說明「就業者之教育程度結構-
專及以上」
(ܺଶ)此一變數對於粗出生率的影響,是否具統計顯著意義?(
分)
大
10
3
0
=
=
Η
β
β
:
2
R
3 X
,
X
Y,
,並試述對立假設,檢
定統計量之值、決策法則和結論。並請計算偏相關係數
(partial R2)。
|
2
1
4
X
,
X
假設該分析師採用模型2。也就是在模型中僅考慮了兩個解釋變數,這兩個解釋變
數是學生的左前臂長度(X1)和左腳長度(X2)。該分析師想知道這兩個解釋變數
是否與身高(Y)有線性關係。在顯著水準α=0.05 之下,請檢定
0
2
1
0
=
=
Η
β
β
:
。
並請試述檢定統計量之值、決策法則和結論。另請計算模型2 的調整的複判定係
數R2(adj R2,the adjusted R-squared)並試述其意義。又該分析師要把身高的單位
英吋轉公分(英吋乘以2.54),試述模型2 的adj R2 是否改變?
假設該分析師採用模型3。只考慮模型中具有一個解釋變數,為學生的左前臂長度
(X1)。在顯著水準α=0.05 下,該分析師想知道一個額外的解釋變數X2 是否在解
釋身高上具有顯著的貢獻。也就是說,該分析師想知道X2 對模型3 的貢獻。請協
助回答此問題並說明對立假設、檢定統計量之值、決策法則和結論。在表1 和表2
的F 檢定中,請試述需要做何假設,才能執行這些F 檢定。
(請接第三頁)
106年公務人員高等考試三級考試試題
全四頁
第三頁
類
科:統計
科
目:迴歸分析
(請接第四頁)
三、
在作迴歸分析時,經常會遇到離群值和有影響力觀察值(influential data point)的
問題。請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴
51
圖2A
圖2B
圖3A 是另一
估計式
包括第41 點觀察值
,虛線估計式
不包括第
值?並請試述這組數據集是否包含任何有
4 分)
圖3A
圖3B
歸分析中的離群值和有影響力觀察值。(12 分)
圖2A 是一組數據的散佈圖,圖2B 提供兩條估計線,實線估計式
X
Y
97
.4
8.2
ˆ
+
=
包
括第51 點觀察值
))
50
,4
(
)
,
((
=
Y
X
,虛線估計式
i
i
i
X
98
.
不包括第
51
51
i
點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含
任何有影響力觀察值?另請說明理由。(4 分)
Y
4
68
.3
ˆ
+
=
組數據的散佈圖,圖3B 提供兩條估計線,實線
影響力觀察值?另請說明理由。(
i
i
41
41
41
X
Y
08
.4
95
.6
ˆ
+
=
i
i
X
Y
21
.5
93
.1
ˆ
+
=
))
16
,
10
(
)
,
((
=
Y
X
點觀察值。請試述這組數據集是否包含任何離群
106年公務人員高等考試三級考試試題
全四頁
第四頁
類
科:統計
科
目:迴歸分析
四、一位數據分析師受冰飲企業老闆的委託,欲知道每日最高溫和該公司冰品銷售是否
有線性關係,以作為未來商品促銷的依據。他蒐集了每日最高溫(X,以攝氏為單位)
和冰品銷售(Y),共30 個樣本點。下列是這些數據的統計量:
30
=
n
,
9892
.
28
=
X
,
7065
.
34
=
Y
,
2128
.
360
)
)(
(
1
=
−
−
= ∑
=
n
i
i
i
Y
Y
X
X
SXY
∑
=
=
−
=
n
i
i
X
X
SXX
1
2
0186
.
556
)
(
,
∑
=
=
−
=
n
i
i
Y
Y
SYY
1
2
0085
.
353
)
(
在配適
)
(
)
|
(
1
X
x
x
X
Y
E
−
+
=
=
β
α
的簡單線性迴歸方程式下,請利用最小平方法計算
參數估計值(αˆ 和
)與分別之標準誤。並請試述
1ˆβ
αˆ 和
的共變異數,也就是Cov(
1ˆβ
αˆ ,
)。(15 分)
1ˆβ
請在試卷上,完成下列變異數分析表。在顯著水準α=0.05,請協助檢定
0
1
0
=
Η
β
:
。
並請試述檢定統計量之值、決策法則、結論和所需要之假設。(10 分)
Source
Sum of
Squares
DF
Mean square
F value
Regression
(1)
(4)
Error
(2)
(5)
(6)
Total
(3)
(1)
(2)
(6)
一位分析師擬以
∑
=
−
−⎥⎦
⎤
⎢⎣
⎡
−
−
−
=
n
i
i
i
i
i
X
X
Y
Y
n
2
1
1
1
1
1
~β
估計簡單線性迴歸模型
i
i
i
X
Y
ε
β
β
+
+
=
1
0
,
之
斜率
n
i
,...,
1
=
1β 。他可以證明
1
~β 是一個不偏估計式。請寫出
1β 的最小平方估計式
。在無須推導
1ˆβ
1
~β 的變異
數下,試述相較於最小平方估計式
,
1ˆβ
1
~β
ˆβ
和
何者為最佳之估計式?請詳細敘述所依據
的理由或定理。(10 分)
1
迴歸分析中分別對下列陳述做一評述:
如R2(coefficient of determination 判定係數)大(譬如0.95),則此模型良好,應
採用。(6 分)
如R2(coefficient of determination 判定係數)小(譬如0.35),則此模型不佳,不
應採用。(6 分)
Y
45
20
34
58
70
57
55
44
這兩位科學家決定取得數據在「Y = A + B × X +ε,ε 為誤差項」這一項假設下的變異
數分析表。請問:
總平方和(total sum of squares)等於多少?(10 分)
迴歸平方和(regression sum of squares)等於多少?(10 分)
誤差平方和(residual sum of squares)等於多少?(5 分)
三、假設一組38 個樣本、三個變數的數據集,其中三個變數分別是一個反應變數、一個解
釋變數、加上一個源自前述解釋變數的「兩水準虛擬變數(dummy variable)」。也就是
說,這一個虛擬變數只會出現兩種數字,假設不是「0」就是「1」。請回答以下問題:
如果數據科學家提出一個這樣的複迴歸模型「反應變數= A + B × 解釋變數+ C × 虛擬
變數+ D × 虛擬變數× 解釋變數」。請寫下「虛擬變數等於1」的數學方程式?(5 分)
請說明的迴歸係數A, B, C, D 的數值以描述在「『虛擬變數等於0』與『虛擬變
數等於1』下的迴歸直線是同一條直線。」(10 分)
請說明的迴歸係數A, B, C, D 的數值以描述在「『虛擬變數等於0』與『虛擬變
數等於1』下的迴歸直線是兩平行直線。」(10 分)
104年特種考試地方政府公務人員考試試題
全一張
(背面)
等
別: 三等考試
類
科: 統計
科
目: 迴歸分析
考慮簡單線性迴歸模型如下:
x
x
X
Y
E
1
0
)
|
(
(1)
若解釋變數X 的值替代為Z=aX+b,a≠0 且b 為常數,則模型(1)改寫為:
z
z
Z
Y
E
1
0
)
|
(
(2)
請比較
0
與
0
、
1
與1
的關係。(10 分) 請問模型
(1)與模型(2)的判定係數是否改變?(回答是或否即可)(2 分)