一位統計分析師想瞭解身高(
iY ,以英寸為單位)是否可以用手掌張
開長度(
1
X ,以公分為單位)和性別(
3.1
4.1
1
9.8
X ,男性是1,女性是0)來
預測?他收集66 名大學生為樣本。所配適的線性迴歸模型如下:
0
1
1
2
2
,
1,
, .
i
i
i
i
Y
X
X
i
n
請依據表1 回答下列問題。
表1: ANOVA
Source
Sum of Squares
DF
Mean square
F test
Regression
840.8436
2
Error
(1)
(3)
(5)
(Lack of fit)
(2)
(4)
(Pure error)
283.8476
45
Total
1220.4394
65
請計算表1 中(1)−(5)所列的線性迴歸的ANOVA 相關訊息。(10 分)
在顯著水準5%下,請檢定身高是否與手掌張開長度
1
(
)
X
和性別
2
(
)
X
有線性關係存在。請列出虛無假設/對立假設、檢定統計量及
決策法則。在無需查表之下,你的建議結論為何?(5 分)
在顯著水準5%下,請檢定線性迴歸模型是否有顯著的缺適(lack
of fit)?以了解線性迴歸模型是否足以描述身高與手掌張開長度
1
(
)
X
和性別
2
(
)
X
之間的關係。請列出虛無假設/對立假設、檢定統
計量及決策法則。在無需查表之下,你的建議結論為何?請說明缺
適檢定所需要之假設。(10 分)
二、一位統計分析師分析奧林匹克男子田徑短跑200 公尺數據,包含1900 年
至2020 年間舉行的28 次男子200 公尺奧林匹克短跑比賽獲金牌的秒
數,其中第一次和第二次世界大戰期間沒有舉辦奧運會,而2020 年奧林
匹克運動會因為COVID-19 疫情實際是2021 年在日本東京舉行。因此
資料包含year(以年為單位)和Y(以秒為單位),其散布圖在圖1。
圖1 奧林匹克年份和男子田徑短跑200 公尺秒數散布圖
這位統計分析師重新定義變數,他把“西元年(year)”平減1963,並
定義新的解釋變數X,也就是X=year−1963。樣本相關資訊如下,其
中n 為樣本數,請依據這些資訊回答問題。
1
2
2
1
1
0.1429,
20.5582,
(
- )( - )=
888.2171,
(
- ) =36859.4286,
( - )
24.3354
n
XY
i
i
i
n
n
XX
i
YY
i
i
i
X
Y
S
X X
Y Y
S
X X
S
Y Y
請計算(
, )
X Y 的皮爾森相關係數。(5 分)
該統計分析師配適模型
0
1
i
i
i
Y
X
,此處
i是誤差項。請寫出
以最小平方估計法所得到的估計迴歸線,並推導共變異數
0ˆ和
1ˆ,
也就是
0
1
ˆ
ˆ
(
,
)
Cov
。(10 分)
在顯著水準
0.05
之下,請檢定
0
1
:
0
H
是否顯著?請詳述檢
定統計量之值、決策法則和結論。請問年份和獲金牌的秒數之間是
否存在線性關係?以此資料是否可以推論人類在田徑短跑越跑越
快?t 分配臨界值,0.025
0.025
(26)
2.0555,
(27)
2.0518
t
t
。(10 分)
(1)
(5)
(2)
(1)
(5) 10 分
(26)
(27) 10 分
3.5
3.9
1
12.6
一位統計分析師受託分析20 名年齡40~60 歲高血壓患者的血壓相關
數據,以評估可能影響血壓的重要因素,資料描述如下:
血壓(Y,反應變數,以mm Hg 為單位),年齡(
1
X ,以年為單位),
重量(
2
X ,公斤),體表面積(
3
X ,平方公尺),高血壓病史(
4.8
4.7
1
11.9
X ,
以年為單位),基礎脈搏(
3.1
3.6
1
11.1
X ,以每分鐘為單位),壓力指數(
5.5
5.1
1
9.3
X ,
0−100 為範圍)。部分統計套裝軟體輸出結果在表2 和表3。
表2
反應變數
5個解釋變數
判定係數ܴ
ଶ
X1
X2-X6
0.451
X2
X1, X3-X6
0.925
X3
X1-X2, X4-X6
0.905
X4
X1-X3, X5-X6
0.196
X5
X1-X4, X6
0.754
X6
X1-X5
0.416
表3
解釋變數
Type I SS
偏判定係數
X1
SSR(X1)
243.266
ܴ,భ
ଶ
0.4344
X2
SSR(X2|X1)
306.886
ܴ,మ|భ
ଶ
0.96891
X3
SSR(X3|X1,X2)
0.765
ܴ,య|భ,మ
ଶ
0.07763
X4
SSR(X4|X1,X2,X3)
0.250
ܴ,ర|భ,మ,య
ଶ
0.02755
X5
SSR(X5|X1,X2,X3,X4)
0.965
ܴ,ఱ|భ,మ,య,ర
ଶ
0.1092
X6
SSR(X6|X1,X2,X3,X4,X5)
1.023E-04
ܴ,ల|భ,మ,య,ర,ఱ
ଶ
1.3E-05
這位分析師一開始採用(1)式中模型1 的複迴歸分析,他擔心有多
重共線性(Multicollinearity)問題。
模型1:
1
1
2
2
3
3
4
4
5
5
6
6
,
1,
, .
(1)
i
i
i
i
i
i
i
i
Y
X
X
X
X
X
X
i
n
…
請協助這位分析師利用表2 判斷是否有嚴重的多重共線性,並說明
模型1 是否合適?如果不合適,請詳細說明原因和判斷方法。(5 分)
表3 第二欄的定義,若SSR(Xi|Xj)代表給定Xj 已在模型中,Xi 加
入模型中的額外平方和(extra sum of squares)。請計算SSR
(X1,X2,X3,X4,X5,X6)。最後一欄符號代表偏判定係數(coefficient of
partial determination)。請說明偏判定係數
3
1
2
2
,
,
Y X X
X
R
的計算式及其意
義。請利用表3 結果,建議分析師採用那些變數,詳細說明理由和
判斷方法。(10 分)
請利用表3 結果及SST=560,SSR(X1,X2,X5)=551.568,計算SSR
(X5|X1,X2)和偏判斷係數
5
1
2
2
,
,
Y X X
X
R
。(10 分)
四、一位教師擬瞭解學生的測試表現是否受智商和教學方法所影響,以
60 名學生為實驗對象,在採用三種教學方法之下,獲得測試成績Y,
智商X。前兩種教學方法M1, M2 變數定義如下。
1
2
1
1
2
0
0
M
M
教學法1
教學法
其他
其他
這位教師分別考慮的模型如下:
模型1
0
1
,
1,
, .
i
i
i
Y
X
i
n
…
模型2
0
2
1
3
2
,
1,
, .
i
i
i
i
Y
M
M
i
n
…
模型3
0
1
2
1
3
2
,
1,
, .
i
i
i
i
i
Y
X
M
M
i
n
…
請使用表4 部分電腦輸出3 個模型的變異數分析(ANOVA, Analysis
of Variance)報表來回答下列問題。
在考慮模型3 之下,請檢定智商X 該解釋變數對於解釋測試成績
是否有顯著的解釋能力。請用顯著水準
0.05
=
檢定並詳述檢定統
計量之值、決策法則、結論和所需之假設。t 分配臨界值,
0.975(56)
2.0032
t
。(10 分)
在考慮模型3 之下,請檢定教學方法M1 和M2 這兩個虛擬變數是否
在模型3 對預測學生測試成績有效應。請在顯著水準
0.05
=
,檢定
0
2
3 0
H
:
=
= ,請詳述檢定統計量之值、決策法則、結論和所需之假
設。F 分配左尾臨界值,0.95
0.95
,
(1, 56) = 4.0130
(2, 56) = 3.1619
F
F
。
(10 分)
請使用表4 說明那一種教學方法最能提升測試成績,須說明論述。
(5 分)
表4
模型1 ANOVA表
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F value
P-value
Regression
1
816.928
816.928
14.72
0.0003
Error
58
3219.255
55.504
Total
59
4036.183
模型2 ANOVA表
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F value
P-value
Regression
2
2880.033
1440.017
71
P-value
Error
57
1156.150
20.283
Total
59
4036.183
模型3 ANOVA表和參數估計
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F value
P-value
Regression
3
3512.745
1170.915
125.27
<.0001
Error
56
523.438
9.347
Total
59
4036.183
模型3參數估計
Variable
DF
Estimate
Standard Error
t value
P-value
Intercept
1
56.024
4.306
13.01
<.0001
X
1
0.350
0.043
8.14
<.0001
M1
1
-15.770
0.967
-16.3
<.0001
M2
1
-11.943
0.972
-12.28
<.0001