df2
27
4.2100
3.3541
28
4.1960
3.3404
402
3.8647
3.0182
403
3.8646
3.0181
t0.025(28)=-2.0484, t0.025(30)=-2.0422
一、一位主管欲知道碩士級分析師的月薪是否可以用年資來預測,以作為
未來給薪的參考。他收集了30個樣本觀察值,資料包含年資(X,以年
為單位)和月薪(Y,以千元為單位)。請依據下面數據和圖1回答問題。
1
2
2
1
1
5.34,
76,
(
- )( - )=
,
(
2198
232.072
21
- ) =
,
( - )
890
n
XY
i
i
i
n
n
XX
i
YY
i
i
i
X
Y
S
X X
Y Y
S
X X
S
Y Y
圖1
在配適
0
1
i
i
i
Y
X
的簡單線性迴歸方程式下,請利用最小平
方法計算參數β0 和β1 估計值(estimates )。如果將模型改為
1(
)
i
i
i
Y
X
X
,請寫出參數α和β1最小平方估計式(least-
squares estimators)及其估計標準誤(standard errors)。(12分)
假設
2
0
1
~
(
,
)
i
i
Y
N
X
,請在顯著水準
0.05
下,檢定
0
1
H :
0
。請試述檢定統計量之值、決策法則和結論。請寫出在應
用最大概似估計(Maximum likelihood estimation)法,ߪଶ的估計值。
請寫出利用最小平方法,ߪଶ的估計值。(10分)
請問年資是5年的碩士級分析師之平均薪資的95%信賴區間。(4分)
Y
X
二、一位分析師受託分析一組資料。資料來自於20位25歲至34歲的健康
女性,其中包括反應變數Y(身體脂肪)和三個解釋變數(X1:皮
褶厚度,X2:大腿圓周和X3:中臂圓周)用作預測身體脂肪。該分
析師初步配適一個迴歸模型如下:
模型1
0
1
1
2
2
(28)
(30) 12 分
若隨機變數(X,Y)為二維常態分配,且X之均數為
x
、變異數為
2
x
,Y之
均數為
y
、變異數為
2
y
,X與Y之相關係數為。
在給定
i
X
x
的情況下,Y之條件分配亦為常態分配,證明其均數為:
|
y
y x
y
i
x
x
x
,i=1,2,…,n
變異數表達為
2
2
2
|
1
y x
y
,n為觀測值個數。(12分)
若將上述的結果表達為解釋變數X及反應變數Y之簡單線性迴歸模型如
下:
0
1
i
i
i
Y
X
ε ,i=1,2,…,n
iε 為隨機誤差;亦即
2
i
0
1
|
,
i
i
i
Y
X
x
N
x
請將
0
、
1
及
2
重新以
x
、
2
x
、
y
、
2
y
與等符號表達之。(6分)
寫出iε 的分配。(4分)
證明
2
2
y
。並說明在何種的狀況下
2
2
y
。(8分)
若
XY
r
為變數X與Y之樣本相關係數,
2
R 為該迴歸模型之判定係數
(coefficient of determination),證明
2
2
XY
r
R
。(10分)
附表一
tα
附表二
3
1,
, 20.
i
i
i
i
i
Y
X
X
X
i
另外,表1計算解釋變數之間的解釋能力。
表1
反應變數
解釋變數
判定係數ܴଶ
ܺଵ
ܺଶ, ܺଷ
99.86%
ܺଶ
ܺଵ, ܺଷ
99.82%
ܺଷ
ܺଵ, ܺଶ
99.04%
請由表1計算變異數膨脹因子(variance inflation factor, VIF)評論該
分析師所配適的迴歸模型1是否合適?如果不合適,請詳細說明原
因和解決方法。(8分)
一位分析師受託分析影響縣市首長滿意度的重要因素。滿意度分數
Y(以1~10為評分範圍,分數愈高代表愈滿意)作為反應變數。該
分析師找到一些重要的解釋變數。依據他所配適的複迴歸模型,有
些預測值有超過10的情況。請問該分析師所配適的複迴歸模型是否
合適?如果不合適,請詳細說明原因和解決的方法。(6分)
一位分析師分析2017年1月至2019年12月的旅遊人數月資料。該分
析師配適的迴歸模型如下:
模型2
2
0
1
2
1
3
2
12
11
ln(
)
,
~ N(0,
)
iid
t
t
t
y
t
M
M
M
此處t 是時間,
t為獨立且具有共同分配其平均數為0變異數
2
的常
態分配,ܯ是虛擬變數,第i 個月為1,其他月份為0,i=1, 2,…, 11。
請說明在線性迴歸模型下,如何檢查誤差項的所有假設是否有違
反。圖2是模型2的標準化殘差值(studentized residual)對應時間的
殘差圖。請問該分析師所配適的複迴歸模型是否合適?如果不合
適,請詳細說明原因和解決的方法。(10分)
圖2
三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公
分為單位)和X 身高(以英吋為單位)的關係。所建立的簡單線性模
型如下:
0
1
,
1,
, .
i
i
i
Y
X
i
n
…
請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的
順序,第二欄是殘差值。
請說明何謂異常點(outlier)和高槓桿觀察值(high leverage
observation),及其之間的區別。(8分)
表2第三欄是標準化的殘差值(studentized residual)。請以此判斷是
否有異常點存在?請說明判斷準則。
表2第五欄是Student 化刪除殘差(Studentized deleted residuals,以
R-Student 表示)。第i 個R-Student 殘差是在假定將資料中的第i
個觀察值刪除,然後以剩下的n-1個觀察值來建立新的估計迴歸方
程式而標準化獲得的R-Student 殘差值。請以此判斷是否有異常點
存在?請說明判斷準則。(8分)
表2第六欄是hii(hat value),其公式為
2
2
1
(
)
1
(
)
i
ii
n
j
j
X
X
h
n
X
X
,
請問
1
n
ii
i
h
的值為何?請以此判斷是否有可能的高槓桿觀察值存
在?請說明判斷準則。表2的最後一欄,第八欄是DFFITS
(Difference in Fits)值。請以此判斷是否有可能的影響點(influential
observation)存在?請說明判斷準則。(8分)
表2
Obs
Residual
Student
Residual
Cook's D
R-
Student
Hat Diag
Cov
Ratio
DFFITS
H
1
0.541
0.443
0.011
0.438
0.101
1.173
0.147
2
0.906
0.718
0.009
0.712
0.035
1.070
0.136
3
-1.777
-1.410
0.041
-1.434
0.040
0.974
-0.293
0.390
0.308
0.002
0.304
0.033
1.097
0.056
-0.977
-0.772
0.010
-0.767
0.032
1.061
-0.140
-1.510
-1.194
0.024
-1.203
0.033
1.005
-0.222
1.490
1.179
0.024
1.186
0.033
1.007
0.219
-0.160
-0.127
0.000
-0.125
0.045
1.117
-0.027
9
1.023
0.809
0.011
0.804
0.032
1.057
0.147
10
-0.510
-0.403
0.003
-0.398
0.033
1.093
-0.073
11
1.957
1.563
0.067
1.602
0.052
0.956
0.374
12
0.157
0.125
0.000
0.123
0.052
1.125
0.029
13
1.023
0.809
0.011
0.804
0.032
1.057
0.147
14
0.556
0.444
0.005
0.438
0.050
1.110
0.101
15
-0.777
-0.614
0.006
-0.608
0.032
1.077
-0.111
16
-0.243
-0.192
0.001
-0.189
0.030
1.099
-0.034
17
-2.043
-1.632
0.073
-1.679
0.052
0.941
-0.392
18
-1.810
-1.458
0.078
-1.486
0.068
0.994
-0.402
19
0.140
0.110
0.000
0.109
0.031
1.101
0.019
20
2.356
1.944
0.236
2.041
0.111
0.926
0.721
21
0.623
0.522
0.022
0.516
0.141
1.221
0.209
22
0.490
0.388
0.003
0.382
0.033
1.093
0.071
23
0.790
0.627
0.008
0.620
0.039
1.083
0.125
24
-0.843
-0.697
0.031
-0.691
0.114
1.168
-0.248
25
-0.810
-0.641
0.007
-0.635
0.033
1.075
-0.117
26
1.490
1.179
0.024
1.186
0.033
1.007
0.219
27
0.490
0.388
0.003
0.382
0.033
1.093
0.071
28
-3.545
-3.437
3.274
-4.299
0.357
0.636
-3.200
29
0.089
0.073
0.000
0.072
0.086
1.168
0.022
30
0.257
0.203
0.001
0.200
0.030
1.098
0.035
31
-1.277
-1.013
0.021
-1.014
0.040
1.040
-0.207
32
1.323
1.065
0.040
1.067
0.066
1.061
0.283
33
0.190
0.153
0.001
0.151
0.068
1.144
0.041
四、一位統計分析師受託預測單位面積房價,欲了解房價受到那些因素所
影響。收集了408筆有關於單位面積房價,屋齡(X1,以年為單位),
到最近的地鐵站的距離(X2),便利商店數量(X3),房屋座落的緯度
(X4)和經度(X5)。擬考慮的模型如下:
模型1
0
1
1
2
2
3
3
4
4
5
5
,
1,
, .
i
i
i
i
i
i
i
Y
X
X
X
X
X
i
n
…
模型2
0
1
1
2
2
3
3
,
1,
, .
i
i
i
i
i
Y
X
X
X
i
n
…
模型3
0
1
1
2
2
4
4
5
5
,
1,
, .
i
i
i
i
i
i
Y
X
X
X
X
i
n
…
請使用表3部分電腦輸出三個模型的變異數分析表(ANOVA, Analysis
of Variance)報表來回答以下問題。
表3
模型1 ANOVA表
Response:Y
DF
Sum of
Mean
F value
P-value
squares
square
Model
5
44260
8852.03227
134.46
<.0001
Error
402
26465
65.83443
Corrected Total
407
70726
模型2 ANOVA表
Response:Y
DF
Sum of
Mean
F value
P-value
squares
square
Model
3
41703
13901
193.50
<.0001
Error
404
29023
71.83833
Corrected Total
407
70726
模型3 ANOVA表
Response:Y
DF
Sum of
Mean
F value
P-value
squares
square
Model
4
41879
10470
146.27
<.0001
Error
403
28847
71.57982
Corrected Total
407
70726
在考慮模型1之下,請檢定便利商店數量(X3)這個解釋變數是否
可以從給定模型1中刪除。請用顯著水準
0.05
檢定並敘述對立
假設、檢定統計量之值、決策法則和結論。(8分)
在考慮模型1之下,請檢定房屋座落的緯度(X4)和經度(X5)這兩
個解釋變數是否在模型1對預測單位面積房價有影響。亦即請用
0.05
檢定
0
4
5
H :
0
,並請敘述對立假設、檢定統計量之值、
決策法則和結論。(8分)
請計算模型1,2和3的調整的複判定係數R2(the adjusted R-squared)
並試述其意義。請敘述檢定,模型誤差項所需要的假設,並綜
合檢定結果,請說明在模型1,2和3中,何者模式為最佳模型。
(10分)