教育測驗與統計考古題

資料由法律人 LawPlayer整理提供·橫跨多種國考 / 法律人 LawPlayer 編輯整理

教育測驗與統計考古題｜歷屆國考試題彙整

橫跨多種國家考試的教育測驗與統計歷屆試題（選擇題 + 申論題）

年份：

教育行政 100 題

在教育測驗與心理測驗領域中，z 分數與T 分數是常見的標準化分數形式。 請說明z 分數與T 分數的計算方式為何？（10 分） 為何在教育與心理測驗中，要使用z 分數與T 分數，而不直接使用原始分數？（5 分） 請說明何謂常模參照（Norm-referenced）與標準參照（Criterion- referenced）？試問z 分數與T 分數屬於何者？（10 分）

請闡述教育大數據分析對於政策制定、教學與學習的意涵，並針對這些意涵提出教育實務的因應措施。（25 分）

某教育學者擬針對某項證照考試的兩次考試成績進行比較，為了能有意義地比較兩次考試成績的高低和解釋優劣，請問可以引用何種測驗理論為依據，並且說明該滿足何種條件，才能達成其比較目的？（25 分）

「題組題」（testlet items）是一種改良型的選擇題型，也常作為近代升學考試所提倡的素養題命題雛型。請問何謂題組題？若要命題組題的話，則必須遵守那些命題原則？（25 分）

在分析兩個變項之間的關聯程度時，應根據變項的測量尺度，選擇合適的相關係數（Correlation coefficient）來作為衡量的依據。請依下列不同的情境，說明各自適合使用的相關係數類型，並寫出其計算公式。 分析「入學成績」與「統計學成績」的關聯。（7 分） 分析「統計學排名」與「微積分排名」的關聯。（6 分） 分析「性別（男／女）」與「是否喝酒（是／否）」的關聯。（6 分） 分析「性別（男／女）」與「統計學成績」的關聯。（6 分）

教師規劃與實施課堂測驗時，在確保信度與效度的品質下，請闡述相關步驟應注意的考量與作為。（25 分）

某教育統計學者想利用家庭社經地位變項X1（分成高、中、低三個水準）和家庭社會資本變項X2（為一連續變項），聯合起來預測學生的學業成績變項Y（為一連續變項）。請列出一條適切的統計模型公式，並說明該怎麼做才能得知高、中、低家庭社經地位的學生，在學業成績上是否具有顯著差異？（25 分）

在教育測驗與評量中，信度（reliability）與效度（validity）是衡量一份測驗品質的重要指標。請根據下列問題作答： 請說明何謂「信度」與「效度」，並比較兩者之間的差異與關係。（9 分） 一份測驗若信度高但效度低，可能產生那些問題？若效度高但信度低，又會有什麼後果？請分析其對評量結果的影響。（8 分） 某位教師發現他設計的段考測驗信度偏低，請推測可能的原因，並說明他可以採取那些具體策略來提升該測驗的信度。（8 分）

某校對甲、乙、丙三個班級進行某項測驗，各班測驗成績之描述統計如下表：班級甲乙丙平均數 53 53.74 53 中位數 53 54 53 眾數 53 55 51及53 標準差 1.59 1.87 1.80 變異數 2.54 3.51 3.23 回答下列問題，並提供相關統計數據及理由說明之。 那一個班級在測驗上的表現最佳？為什麼？（5 分） 那一個班級的學術性向最為同質？那一個班級最為異質？為什麼？（8 分） 那一個班級的次數分配可能為雙峰分配？為什麼？（7 分） 那一個班級的分數呈現負偏態？為什麼？（5 分）

某研究欲探討性別與服務滿意度之間是否具有關聯。研究者針對顧客進行問卷調查，並將受訪者依「性別」與「服務滿意度」進行分類，得到以下交叉表資料（單位：人次）：非常不滿意不滿意沒意見滿意非常滿意男性 20 30 40 35 25 女性 80 65 45 45 65 在顯著水準α = 0.05下，試檢定各滿意度類別的比例是否相同？（12 分） 在顯著水準α = 0.05下，試檢定性別與服務滿意度是否具有關聯？（13 分）參考之查表值： χ0.05 2 (4)=9.488 , χ0.05 2 (6)=12.592 , χ0.05 2 (8)=15.507

(4)

(6)

(8)

一位研究者探討20 位年齡60 至65 歲年長者之工作記憶能力，他們目前仍在需要高度認知能力的行業工作。研究者想要比較這些積極動腦的年長者的工作記憶分數與一般高中生的工作記憶是否有差異。這位研究者用α 值.05 進行雙尾檢定。以下為t 檢定的結果整理。表1. 積極動腦的年長者之工作記憶能力描述統計摘要表個數平均值標準差標準誤記憶分數 20 10.15 1.694 .379 表2. 積極動腦的年長者與一般高中生之工作記憶能力t 檢定摘要表檢定值= 9 t 自由度顯著性（雙尾）平均值差異差異的95% 信賴區間下限上限記憶分數3.035 19 .007 1.150 .36 1.94 請問一般高中生的工作記憶平均分數為何？（5 分） 請依據樣本數、描述統計、統計檢定方法及結果，寫出此研究的完整結論。（20 分）

為了防止接觸到心理測驗工具的人誤用或濫用，美國心理學會與教育學會及測量學會共同制訂一份有關測驗使用的倫理原則，作為大家共同遵守的規範。請問測驗使用的倫理規範有那些？請至少列舉出四項原則並說明之。（25 分）

研究者想從學生的閱讀自信預測其閱讀表現，蒐集了402 名學生的資料，得到下表的描述性資料。閱讀自信與閱讀表現的共變量為53.58。最小值最大值平均數標準差變異數閱讀自信 3.03 13.53 9.45 1.89 3.57 閱讀表現 297 753 558 70 4900 檢驗閱讀自信與閱讀表現是否有顯著的相關，寫出統計檢驗步驟並根據結果下結論。（15 分） 以閱讀自信（X）來預測閱讀表現（Y），其迴歸方程式為何？（10 分）

請說明常用的描述統計學指標有那些？並說明其用途。（25 分）

研究者探討性別（男、女）與教學介入（新教學法、傳統教學法）對39 名學生學習表現的影響。以二因子變異數分析資料，結果得到，總平方和（SSy）為534.5，組別、性別、組別X 性別三者的平方和加總為243.5，組別與組別X 性別兩者之平方和加總為183.5。組別X 性別的平方和為 10.5。請寫出二因子變異數分析表（含變異來源、平方和、自由度、平均平方和與F 值）。二因子變異數分析交互作用顯著的意義為何？結果出現顯著的交互作用時，該如何進一步分析與解釋資料？（25 分）

請根據下列試題分析後的參考資訊，試問：這四題的試題分析客觀指標相較之下，你／妳會決定保留那一道試題納入題庫，以作為日後常模參照測驗使用？請說明理由。（25 分）題號答對率刪題後信度注意係數判定類型效標相關 004 50 .7470 .45 A .2089 020 45 .7258 .29 A .3317 075 80 .7062 .38 A .1113 049 70 .7365 .24 A .0104 註：效標關聯效度：.24，內部一致性信度：.74。

下表是205 位學生在一份由10 道選擇題構成試卷的試題分析情形。表格內呈現的為學生在四個選項的選擇人數百分比，數值右上方有星號的是正確答案；另有試題的區辨力（Dic）和男（M）女（F）生的答對率。每個試題的權重相同。整份試卷的難度為何？那道題目的變異數最大，其數值為何？那道題目區辨力不理想？試解釋其原因。那道試題會有公平性的疑慮？說明理由。評述此份試卷之誘答選項設計。（25 分）題目 A B C D Dic F M 題目 A B C D Dic F M 1 2.9 16.6 69.3* 11.2 .49 68.8 69.6 6 3.0 23.7 62.6 ＊ 9.6 .47 66.3 59.6 2 15.6 54.6* 4.4 25.4 .33 54.8 54.5 7 96.0* 2.0 0.5 1.0 .26 97.8 94.5 3 4.9 19.0 9.3 66.3* .46 64.5 67.9 8 0.0 8.6 12.1 78.3* .59 79.8 77.1

某位心理學者根據長期追蹤研究發現，使用魏氏智力量表測得全國大學生的平均智力分數為μ＝110，σ＝15。為了檢定就讀明星大學的學生是否比較聰明（即具有較高的智力）的假設，他自某明星大學隨機抽樣25 名大一新生，並測得其平均智力分數為ｘ＝113。試問：該心理學者是否可以宣稱就讀該明星大學的學生確實比一般大學學生聰明？請說明你／妳的解題過程。（25 分）

請以某一學科（如：國文、英文、數學、物理、化學、……等，任一學科均可）為例，應用雙向細目表，設計一份可供期中考試的命題藍圖。（25 分）

75.1* 4.9 6.8 13.2 .55 76.3 74.1 9 0.5 64.6* 23.7 10.1 .46 65.2 64.2

1.0 92.2* 2.9 3.4 .39 90.3 93.8 10 2.6 5.1 6.6 85.2* .52 92 79.6 四、評量的信度為何重要？一個測驗分數之變異數為25，測驗發展者以奇數與偶數題進行折半，兩者的相關為.87。已知斯皮爾曼-布朗公式（Spearman-Brown formula）為 1 ( 1) xx kk xx kr r k r    ，此一測驗的信度為何？其測量標準誤為何？解釋測量標準誤的意義。除了上述估計信度的方法外，還有那些方法可以估計信度，試述其特點？（25 分）

某城市教育處調查該市中學生的生活適應狀況。以下是923 名中學生生活適應量表各分量表的相關矩陣（表1）及變異數分析摘要表（表2）。表1 中學生生活適應量表各分量表之相關矩陣生活適應量表自我認同家庭適應學習適應學校適應身心健康生涯發展自我認同 1 家庭適應 .36** 1 學習適應 .50** .30** 1 學校適應 .51** .32** .38** 1 身心健康 .43** .48** .34** .53** 1 生涯發展 .47** .26** .39** .36** .33** 1 **p<.01 表2 不同性別中學生在生活適應量表之變異數分析摘要表變異來源Wilk’sΛ SS df MS F p 事後比較 .94* 自我認同 23.56 1 23.56 0.80 .371 家庭適應 172.92 1 172.92 3.91 .048 學習適應 359.98 1 359.98 11.27 .00** 女>男學校適應 1.42 1 1.42 0.03 .86 身心健康 1455.98 1 1455.98 12.50 .00** 男>女生涯發展 1.48 1 1.48 0.05 .83 *p<.05，**p<.00833（.05/6=.00833） 若要比較男女生在這些分量表上的差異情形，選擇單因子多變量變異數分析（MANOVA）會比做6 次獨立樣本t 檢定更適當，為什麼？（8 分） 請搭配表2 中的數據（例如Λ、F、p 值等），說明MANOVA 的分析程序，並解釋本研究的結果。（10 分） 研究者採用Scheffe’法進行事後比較，請說明Scheffe’法的優缺點。（7 分）

某研究人員收集到100 名受試者的兩個變項資料（X 和Y），已知X 變項的平均數為10、變異數為64，Y 變項的平均數為20、變異數為36，且X 和Y 的共變數為16；若該研究員打算以X 來預測Y 時，則可以獲得的直線回歸方程式及其預測精準度為何？請說明。（25 分）

某教育學者認為，COVID-19疫情期間，大多數國民中小學校皆採行線上教學來代替實體教學。但是，線上教學的學習成效深受各種因素的影響與干擾，因此，他認為有必要重新制訂線上教學時，學習成績是否達到「及格」的通過標準。請問：你會建議他該如何設定此通過標準？請至少列舉五項步驟的建議。（25分）

在國小教學現場，教師自編成就測驗（小考、段考等）的使用率比標準化成就測驗高出許多，請回答以下問題： 試以測量目的、題目內容、結果解釋來比較標準化成就測驗與教師自編測驗。（10 分） 教師自編測驗更重視何種效度證據？可用那些方法來評估此種效度？請列舉兩種方法並詳述之。（10 分） 若以重測法、折半法、複本法等來評估教師自編測驗之信度，可能會得到較低的信度，為什麼？（5 分）

為矯正大眾對傳統口試評量的不公平、不公正、不客觀的偏差印象，現代化的口試評量，多半已改採用結構化口試（structured oral exam）方式來進行。請問何謂結構化口試？該如何實施結構化口試？（25 分）

某市教育局舉辦一年一度的國小學生才藝競賽，並聘請兩位表演藝術專家針對10名進入總決賽的小學生才藝表演進行客觀的評分。這兩位專家針對這10名學生的評定名次如下表，請問：這兩位專家的評分間有無關聯性或一致性存在？（25分）（查表的t值臨界值為：.975,8 t 2.306  ）學生 A B C D E F G H I J 甲專家 2 8 5 7 4 6 1 9

10 乙專家 5

適性測驗（adaptive testing）的概念由來已久，近年來由於電腦科技的突飛猛進，以及測驗理論的創新發展，產生電腦化適性測驗（computerized adaptive testing）。請回答： 相較於傳統的紙筆測驗，適性測驗的意義和特色（優點）為何？（9 分） 請針對傳統適性測驗與電腦化適性測驗各舉一個實例，並根據起始題（基本水平）、終止題（上限水平），及能力估計等3 個向度，比較這兩種適性測驗。（16 分）

一般教育學者均常採用直線回歸（linear regression）方法來進行資料分析的工作。現有某一教育學者，他收集從1911 年到2020 年共計一百一十年來的「每年出生人口數」及「每年教育經費支出數」兩個變項資料，擬據以建立一條以「每年出生人口數」來預測「每年教育經費支出數」的直線回歸方程式。請問：在開始進行資料分析之前，他需要先檢定直線回歸的那些基本假設是否已被滿足？而在本例中，他擬建立的直線回歸方程式很容易違反其中那一種假設，進而需要改使用其他方法來替代？請說明之。（25 分）

1 8 3 7 6 10 2 9 三、某教育學者想知道某校六年級學生的平均身高，他自該校隨機抽取9名學生為樣本，並測得其身高分別為140、142、140、143、139、140、141、 142、141公分（已計算出這9名學生身高的M=140.89，SD=1.26），請問：你會推估出該校六年級學生的平均身高之95%信賴區間（查閱t分配表，臨界值為±2.306）為何？請寫出計算過程並說明你的答案。（25分）四、請解釋下列專有名詞：（每小題5分，共25分） 參數估計不變性（invariance of parameter estimation） 差異試題功能（differential item functioning） 可能值（plausible values） 效度量尺（validity scale） 試題特徵曲線（item characteristic curve）

採用標準化智力測驗的結果是鑑定智能障礙的方法之一。若定義智商在平均數之下2~3 個標準差為輕度智能不足，請回答以下問題： 若某標準化智力測驗的平均數是100，標準差是15，則輕度智能不足的智商範圍是多少？若換算成T 分數，則T 分數範圍是多少？（12 分） 此智商範圍占整個常態分配面積的百分比是多少？需呈現計算過程。（8 分） 若某城市有2,000 名兒童，則預估有多少名兒童可能被鑑定為輕度智能不足？（5 分）附表

某教育學者想針對數學科學習成就進行性別差異檢定。他分別針對三次期中評量的考試成績進行檢定，獲得第一次結論為男生> 女生（ 2 1 4.30 df   ）、第二次結論為男生>女生（ 2 1 5.89 df   ）、第三次結論為女生>男生（ 2 1 1.54 df   ）。請問：若他綜合此三次的檢定結果，則他的結論應該為如何？請說明解題過程。（25 分）（當α=.05 時，卡方分配查表的臨界值分別為： 2 1 1, 3.84 df df     ； 2 2 2, 5.99 df df     ； 2 3 3, 7.81 df df     ）

多數數學情意的測量常採用Likert 量表，測量結果都和數學成就只有低度的相關。 請解析此測量結果的可能原因。（10 分） 情意與成就是一體的兩面，請再舉出兩種數學領域可行的其他情意測量方式，並說明其可行的理由。（15 分）

請說明以雷達圖（radar chart）來繪製統計圖表的適用時機，（12 分）並說明解讀雷達圖資訊時要注意那些陷阱？（13 分）

國際學生評量計畫（the Programme for International Student Assessment, PISA）從2009 年起研發電腦化閱讀素養評量，並於2015 年的施測中全面電腦化，試說明電腦化閱讀素養評量的一項重要理念及兩項設計優勢，並舉出一項能彰顯電腦化優勢的閱讀素養評量題材。（25 分）

請分別說明虛假相關（spurious correlation）、淨相關（partial correlation）及部分相關（part correlation）的意義，（12 分）並各舉一例說明其應用時機。（13 分）

某社區大學老師想了解來上“家暴防治”課程的學員進行第一次結婚時的年齡調查，一共調查了25 位，其資料如下：年齡 18 19 20 21 22 23 24 25 26 27 28 29 30 31 人數 2

受試者回應歷程（examinee response processes）資料的探究為當前評量的關注焦點之一，試說明其意義、資料來源類別及其對測驗效度的貢獻。（25 分）

3 2 2 2 1 1 3 2 0 1 1 1 請用三種集中量數描述這群人的結婚年齡，兩種離散方式描述其變異程度。（25 分）（答案若為小數，請四捨五入至小數點後第二位）四、某研究者假設：大學男、女生的自我概念有顯著差異。以下為t 檢定的結果整理。表1. 不同性別的大學生自我概念描述統計摘要表性別個數平均數標準差平均數標準誤男 762 -.004 .972 .0351 女 1286 -.161 .979 .0273 平均值差異＝0.157 變異數相等的Levene 檢定：F＝0.476 p＝0.490 表2. 不同性別的大學生自我概念t 檢定摘要表 t值自由度顯著性（雙尾）差異的標準誤差異的95%信賴區間假設變異數相等 3.521 2046 .000 .157 （.0697, .245）假設變異數不相等 3.528 1607.328 .000 .157 （.0698, .244） 應採用那一個t 值？請說明理由。（10 分） 請依據樣本數、描述統計、統計檢定方法及結果，寫出此研究的完整結論。（15 分）

請說明Q 技術的適用時機與實施歷程。（25 分）

小義接受某標準化推理能力測驗，該測驗的平均數為45 分，標準差為7 分，小義的原始分數為38 分。將小義的原始分數轉換成各種衍生分數，以利後續的結果解釋。 請解釋標準化推理能力測驗中「標準化」的意思。（5 分） 小義的z 分數是多少？請解釋此z 分數的意義。（7 分） 小義的百分等級是多少？請解釋此百分等級的意義。（7 分） 小義的T 分數是多少？（3 分） 小義的標準九分數是多少？（3 分）

請試述下列名詞之意涵：（每小題5 分，共25 分） 抽樣架構（sampling frame） 事後比較（post hoc comparison） 複本信度（parallel-forms reliability） 離群值（outliers） 多元相關係數（multiple correlation coefficient）

請說明以下措施對測驗信度或測驗效度造成的影響，並說明你的理由？（25 分） 增加相同品質的測驗題數。 加入更多符合測驗目標特質的內容。 加強評分員培訓，確保其都能依評分規準評分。 提高測驗情境的標準化，例如：相同的指導語、光線、溫度⋯⋯。 使用與測驗目標特質較相似的評量工具或行為作為效標。

一實驗中學的校長想了解該校學生的智商是否不同於一般中學生，於是他從該校學生中隨機抽取64 名學生接受魏氏智力測驗（平均數=100，標準差=15），得到平均數為103。請回答以下問題並進行考驗。 寫出虛無假設與對立假設。（4 分） 若α=.05，臨界值應該是多少？（3 分） 請進行假設考驗，計算出數值，並解釋結果。（10 分） 請使用區間估計的方法，計算該校學生真正智商的95%信賴區間，並解釋此區間估計的結果與假設考驗的結果是否一致。（8 分）

測驗的公平性一直受到極大的關注，不論是何種測驗，對所有應試的學生都應該是公平的，但事實上卻可能產生測驗偏差的情形。 請說明何謂測驗偏差？（5 分） 說明2 項造成測驗偏差的原因。（10 分） 列舉2 種較常見的測驗偏差種類並說明何以會有該種測驗偏差。（10 分）

請說明申論題評分方式中的整體式評分（holistic scoring）與分析式評分（analytic scoring）的特徵及適用時機？（10 分）並詳細說明申論題的評分原則？（15 分）

某手機銷售公司抽樣調查200 位民眾，欲了解性別是否與不同手機品牌的喜好度有關。其調查的結果如下：手機品牌芭樂六星磐石性別男性 40（A1） 20（A2） 60（A3）女性 20（B1） 40（B2） 20（B3） 寫出虛無假設與對立假設。（4 分） 請依序呈現A1、A2、A3 的期望次數。（6 分） 求出卡方值（只需正確至整數位），選擇參考以下適當的臨界值，作出你的裁決並解釋結果。（12 分） 2 .99(1) χ 6.635  ， 2 .99(2) χ 9.210  ， 2 .99(3) χ 11.341  ， 2 .99(6) χ 16.812  性別與手機品牌喜好度之間有顯著相關嗎？若要求出兩變項的關係，應採用那一種方法？（3 分）

(1)

(2)

(3)

(6) 3 分

某校是這學期中區模擬考的輪值命題團隊，由於每次申論題的命題方向與評分標準都有學區內不同學校提出異議，因此該校決定聘請一位試題編製專家，從命題與評分兩方面著手來提高模擬考的試題品質。假設你是該校聘請的專家，你應該提供何種建議才能確保申論題的品質？請提供3 項命題與5 項評分原則給該校參考。（25 分）

下表為某測驗針對不同性別、年級、科系類型進行分層隨機抽樣（stratified random sampling）的樣本人數，請依此表回答下列問題：科系類型低年級（一、二年級）高年級（三、四年級）小計男女男女藝術型 392 600 161 343 1,496 實用型 1,000 275 700 160 2,135 研究型 636 565 346 203 1,750 商業型 285 516 272 672 1,745 社會型 317 1,400 159 605 2,481 事務型 66 98 50 179 393 小計 2,696 3,454 1,688 2,162 10,000 何謂分層隨機抽樣（stratified random sampling）？它與簡單隨機抽樣（simple random sampling）有何不同？（10 分） 上表分層隨機抽樣的細格中，人數最多及人數最少的群體在各變項上的類別特徵是什麼？他們分別占總抽樣人數的比例有多少？（10 分） 如果要了解「樣本中各分層群體的樣本人數比例與母群中各分層群體的人數比例是否相符合」，應如何進行分析？不必實際計算，只需完整敘述你的分析程序及方法。（10 分）

陳老師以學生的數學學習態度來預測其數學成就，他蒐集資料並進行簡單直線迴歸分析，得到以下結果。（每小題5 分，共25 分）模式摘要模式 R R 平方調過後的R 平方估計的標準誤 1 .415a .172 .169 9.656 a. 預測變數：（常數），數學態度係數a 模式未標準化係數標準化係數 t 顯著性共線性統計量 B 之估計值標準誤差 Beta 分配允差 VIF 1 （常數） -.557 3.596 -.155 .877 數學態度 .251 .035 .415 7.181 .000 1.000 1.000 a. 依變數：數學成就 請問簡單直線迴歸分析中的「簡單」和「直線」各代表什麼意思？ 請寫出原始分數之迴歸公式及標準化迴歸公式。 本迴歸模式是否有效（顯著）？你如何判斷？ 決定係數是多少？請以本題中的變項解釋決定係數的意義。 「共線性」的意義是什麼？本次分析有沒有共線性的問題？

李老師想要了解班上學生的學習焦慮程度（Y），除了使用修課學分數（X1）之外，還想利用學習專心的程度（X2）、打工的工作量（X3）來預測其學習焦慮程度，假設李老師得到的原始分數與標準化迴歸方程式如下： Ŷ＝－10.07＋(.56)×(X1)＋(.06)×(X2)＋(.86)×(X3) ZŶ＝(.57)(ZX1)＋(-.34)(ZX2)＋(.33)(ZX3) 請根據上述資料回答下列問題。 預測變項與效標變項為何？（4 分） 假設小澄修課學分數是20 學分，學習專心的程度是85 單位，打工的工作量是2 份家教，其學習焦慮程度為何？（3 分） 假設小齊修課學分數的z 分數為.94，學習專心的程度的z 分數為1.81，打工工作量的z 分數為1.27，則他的學習焦慮程度為何？如何解釋？（8 分） 如果多元相關係數是.84，決定係數為何？如何解釋？（10 分）

下表是某班學生英文科段考成績、每週補習時數，以及參加托福考試（TOEFL）的成績，請依此表回答下列問題：學生編號S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 補習時數10 10 10 10 14 14 14 14 18 18 18 18 22 22 22 22 段考成績75 70 60 70 90 75 90 80 80 90 90 90 70 80 90 75 托福成績490 480 475 465 540 520 560 525 580 600 610 605 565 580 590 580 若要比較「這四種補習時數的英文段考成績是否有顯著差異」，應使用何種統計檢定？請敘述檢定程序，並說明這種檢定方法有何基本假設？（10 分） 老師以托福考試成績（Y）為依變項，使用兩種迴歸模式進行分析，得到結果如下表。請說明此兩種迴歸模式分析的結果提供了那些訊息？（10 分）迴歸模式的公式預測變項模式F 檢定值 R² 模式一 Y=243.8+3.8X1 段考成績(X1) 16.8** 0.54 模式二 Y=241.5+2.4X1+7.1X2 段考成績(X1)、補習時數(X2) 69.4** 0.91 **表示p<0.01

某標準化測驗之常模樣本的分數呈常態分配，其平均數為40 分，標準差為10 分，測驗的內部一致性信度是0.91。有4 名學生的表現（原始分數）分別是：小信－48 分，小義－50 分，小和－53 分，小平－46 分。（提示： 1 meas x xx SE S r   ） 請問本測驗的測量標準誤是多少？測量標準誤的意義為何？可以如何應用？（10 分） 小信原始分數的68 %信賴區間為何？請詳細呈現計算或推理過程說明 4 位學生表現的差異情形。（10 分） 請解釋內部一致性信度。（5 分）

某教育測驗專家初擬一份僅含5 題試題的成就測驗，經樣本預試後，發現其信度係數值僅達.40 而已，不符理想的狀態。他如果想獲得一份信度係數值高達.80 理想值的成就測驗，則根據斯布校正公式（Spearman-Brown formula），他還需要至少增加多少題什麼性質的試題才夠？請寫出計算程序並解釋結果。（25 分）

本題與中小學學校教師所編製的測驗有關，請根據題意回答各小題： 中小學學校教師所編製的課堂測驗（例如段考，小考）性質為何？請以常模參照測驗vs.標準參照測驗；最佳表現測驗vs.典型表現測驗論述之。（6 分） 中小學學校教師所編製的課堂測驗，最重視那一種效度證據？為什麼？（7 分） （請根據第題的答案回答此題）請舉出三種評估課堂測驗效度的方法，並詳細說明其內容或進行方式。（12 分）

有一研究員擬隨機抽取三所學校樣本，進行「數學科成就測驗」的施測及成績優劣的評比。他預定A 校抽取20 名學生、B 校抽取30 名學生、C 校抽取10 名學生。經該數學科成就測驗的測試結果，該研究員計算出各校的成績如下：A 校平均60 分、標準差6 分；B 校平均50 分、標準差5 分； C 校平均90 分、標準差9 分。請問：全體樣本（共60 名學生）的平均成績與變異數為何？（10 分）相較而論，那一所學校學生成績的個別差異較為嚴重？（15 分）請寫出計算過程並說明你的決定。

在某大學任教的陳教授想要了解在他所教授的通識課程中，來自三個學院學生的專注程度如何，請根據他的研究目的回答各小題： 在探討「三個學院學生的專注程度有差異」的假設時，其虛無假設與對立假設應如何敘寫？（4 分） 在探討「三個學院學生的專注程度有無差異」時，應採用那一種統計方法？此時的自變項和依變項各為何？（6 分） 若從三個學院的學生中各抽取20 人為樣本，此時可以直接認定此分析符合變異數同質性的假定，而不用作變異數同質性的考驗嗎？為什麼？（5 分） 除了變異數同質性，進行此項分析仍須符合那些基本假定？（4 分） 若α = .05，且考驗的結果為F = 1.58，P = 0.1346，你會做何種結論？你如何解釋此考驗的結果？（4 分） （承第小題）你做此結論時，應避免犯下何種錯誤？（2 分）

某研究者嘗試進行翻轉教學法的教學實驗研究，為了能夠檢定該教學實驗的成效，他分別針對授課班級40 名學生進行標準化成就測驗的前後測，測驗成績如下表所示。前測成績後測成績不及格及格及格 2 18 20 不及格 6 14 20 8 32 40 請問：他能夠宣稱該教學實驗有成效嗎？請說明你的檢定程序及檢定結論（當 .05  時，查表臨界點 1.697 t  、 2 3.84  ）。（25分）

在進行推論統計時，在某些條件下，樣本平均數的分配有時會形成z 分配，有時則形成t 分配，請回答以下各小題： 請說明z 分配及t 分配的適用時機。（4 分） 請列出z 分配及t 分配的平均數、變異數和標準差（列出公式）。此外，並列出變異數的不偏估計數。（8 分） 請描述z 分配及t 分配的形狀。（6 分） 列出z 公式與t 公式。（4 分） z 分配與t 分配的關係為何？（3 分）

某位統計學家根據81 名抽樣學生的努力程度（X，單位：小時）與學業成績（Y，單位：分）兩個變項分數，建立起一條迴歸方程式及其估計參數如下所示： ˆ 62.75 0.8 Y X    ， 2 .81 R  ，型一誤差 .05  其中，方程式的截距項估計值（I值）為62.75，斜率項估計值（B值）為 0.8，其估計標準誤SE（B）為0.125，整條方程式的決定係數為 2 .81 R  。請問：（每小題5分，共25分） 經檢定結果，該迴歸係數是否已達顯著（ .05  時，查表臨界點 2 t ）？ 努力程度（X）與學業成績（Y）兩個變項之間的相關係數是多少？ 若某考生的努力程度為10 小時，則預測該考生的學業成績為幾分？ 若將上述的X 與Y 兩變項均標準化後，再求其迴歸方程式，則方程式該如何表達？ 若該統計學家想改以學業成績（Y）來預測努力程度（X）的話，則該預測結果的標準化迴歸方程式應該如何表達？

請試述下列名詞之意涵：（每小題5 分，共25 分） 素養導向評量（literacy assessment） 量尺分數（scaled scores） 相關萎縮（correlation attenuation） 決定係數（coefficient of determination） 等分散性假設（homoscedasticity hypothesis）

某次定期考試王老師班上25 名學生的國語科成績分布如下表。請計算表中之累積百分比，於申論試卷上作答，並製作該班成績的莖葉圖。（25 分）分數 65 68 73 74 79 80 81 83 85 86 87 88 90 93 95 97 人數 1 1

試說明獨立樣本t 檢定，在SPSS 報表中為何要先作Levene 的變異數相等測試？（25 分）

請以推論統計學的觀點說明之：你該如何評估某教育政策的推動是否有達到預期的成效？（25 分）

1 1

迴歸（regression）方法是一個分析變數和變數之間關係的工具，主要在探討自變數（x）與依變數（y）之間的線性關係，透過迴歸模型的建立，可以推論和預測研究者感興趣的變數（y）。其誤差項需滿足那三大假設？（25 分）

回顧了心理測量學中效度概念發展的階段，早期效度概念關注的是兩個變數之間的相關，隨後重點轉向效度的多種類型，包括預測、同時、建構與內容效度等，試就其內涵申論之。（25 分）

某縣市教育局舉辦一項「作文比賽」，預計約有500 名小學生參賽。假設你是承辦單位的負責人，你應該注意那些事項，才能確保此比賽的評分是公平的結果？（25 分）

1 2 2 1 2 2 1 3 1 1 累積百分比二、一項促進國際閱讀素養研究中，六個國家學生閱讀素養表現之平均值及平均值的標準誤如表2-1，每個國家抽樣至少是2,000 名學生。那兩個國家的學習成就表現之差異達顯著水準（α＝0.05）？請寫出檢驗步驟並將達顯著水準的比較，以＊標示於表2-2 之灰色細格中（本題不矯正因為多重比較造成的第一類型錯誤膨脹的問題）。（25 分）表2-1 表2-2 國家平均值平均值標準誤 A 581 2.2 B 576 3.2 C 569 2.7 D 565 2.2 E 559 2.3 F 555 2.4 A B C D E B C D E F 三、王校長想知道學生的學習投入情形，編製學習投入量表共有11 個題項。預試580 名學生，計算該量表的Cronbach’s Alpha 所得數值為0.813。下表為量表信度之統計報表。請說明什麼是Cronbach’s Alpha，指出其關心誤差類型？並解釋下表中「矯正的項目-總分之相關」（Corrected Item-Total Correlation）及平方複相關（squared multiple correlation）的意義。根據下表，若王校長想將題目縮短為10 題，你會建議他刪除那道題目？為什麼？你刪除該題後的量表信度會是多少？請分別說明之。（25 分）項目-總分統計矯正的項目總分之相關平方複相關 Cronbach’s Alpha （如果項目刪除） A .522 .335 .793 B .452 .231 .800 C .488 .291 .796 D .355 .155 .809 E .449 .448 .800 F .449 .449 .801 G .467 .366 .798 H .591 .405 .785 I .517 .332 .793 J .485 .279 .797 K .477 .245 .798

隨著資訊科技的發展、推廣及應用，以往最普及的紙筆測驗（Paper Based Tests, PBT）已逐漸朝向電腦化測驗（Computer Based Tests, CBT）發展之趨勢。而電腦化測驗的應用又可分為傳統的電腦化測驗（CBT）、電腦化適性測驗（CAT）及網路化測驗（WBT）。試申論之。（25 分）

請說明效度係數（validity coefficient）的種類？（12 分） 假設長官要求你負責承辦第三題的「作文比賽」活動。你該提出何種效度係數的證據，向你的長官證實此項比賽活動是能夠促進學生在校的寫作能力？請說明之。（13 分）

學校的定期考試主要在瞭解學生一段期間內的學習成效。此種測驗最主要的效度證據為何？教師要如何確保這類成就測驗的效度？學生接受測驗後該如何分析學生的測驗表現與檢驗試題的品質？（25 分）

某縣市教育局想了解該縣市歷年來教師甄試筆試的效度。 請問你認為從理論上來看，應採用那一種效度？請說明你的理由及實施的步驟。（15 分） 請問你認為你所建議的效度驗證過程在實際實施上有那些困難點？請說明原因。（10 分）

王老師要瞭解啟發教學法、欣賞教學法及建構式教學法，在不同學習壓力（區分為高度及低度壓力）的學習表現之影響情形。每一種教學法各十位學生，每種教學法在高度及低度壓力各五名學生。經過教學實驗之後，透過二因子變異數分析，結果摘要如表。請回答以下問題： 請寫出A 至K 格中的數值（請以A=.. 、B=…依此類推，寫於答案紙）。（11 分） 表中看出那些項目達到統計顯著水準呢？為什麼？因為有些項目達到統計顯著水準，所以王老師下一個步驟應進行那些統計檢定呢？表中有一項為交互作用，請說明它的種類及其特性。（14 分）表：壓力與教學方法對於學習表現的二因子變異數分析摘要變異來源 SS（離均差平方和） df（自由度） MS（均方） F 值組間壓力 4.0 A E I 教學方法 100.0 B F J** 壓力與教學方法交互作用 40.0 C G K* 組內（誤差） 96.0 D H 總和 240.0 *p < .05 **p < .01

目前我國的升學測驗，如國中教育會考、高中學科能力測驗，多是以選擇題的題型為主，簡答或申論型試題為輔。請問這二類題型的優缺點分別為何？請說明你的理由。（25 分）

近年來，測驗學者及校務研究（Institutional Research）透過資料採礦（Data Mining）來分析大數據或資料庫資料，以瞭解測驗變項之可能分配的組型、群組或關聯性是重要的趨勢。資料採礦包括監督式（supervised）及非監督式（unsupervised）取向。請問，這兩種取向的意義與差別、資料採礦特性、兩種取向各有那些技術可以應用。（25 分）

已知全國教師在某標準化工作滿意度量表的平均值是3.64，某研究者想探究其所任教區域縣市之國小教師工作滿意度是否低於全國平均值。他調查了121 名受訪者，得到平均值為3.52，標準差為0.66。 請寫出本研究的虛無假設及對立假設。（5 分） 研究者訂定的α = .05，請用自己的話說明α = .05 的意義。（5 分） 請列式計算，並說明是否推翻虛無假設。請用統計的語言說明假設檢定的結果。（15 分）

S-P 表（Student-Problem Chart）分析是近年來測驗評量很重要的實務議題，請說明 S-P 表的意涵與特點，（10 分）以及使用注意事項。（15 分）

某校7 年級英文文科期中考平均值為65，中位數為61，眾數是59。該校7 年級有 100 名學生。 請問此次期中考英文成績的分配最有可能是那種偏態？為什麼？（10 分） 成績批閱後，校方發現有一題填充題超出範圍，全年級只有1 個考100 分的學生答對，因此決定其餘99 名學生都加2 分。請問這樣一來平均值、中位數及眾數應該是多少？（15 分）

解釋名詞：（每小題5 分，共25 分） 1.測量標準誤（Standard Error of Measurement） 2.陸軍普通分類測驗（Army General Classification Test, AGCT） 3.測驗等化（Test Equating） 4.定錨試題（Anchor Items） 5.高斯分配（Gaussian Distribution）

在一個常態的分配下，平均數36，標準差5。請問低於那個數字以下，其分布面積占25%？（25 分）

請試述下列名詞之意涵：（每小題6 分，共30 分） 形成性評量（ Formative Assessment） 區別效度（ Discriminant Validity） 系統性誤差（ Systematic Errors） 試題特徵曲線（ Item Characteristic Curve） 差別試題功能（ Differential Item Functioning）

某教育學者根據文獻評閱心得發現，一份「學科成就測驗」編製的好壞，將影響到能否有效評估學生學習成就的正確性。請問：你會提醒他注意那些因素，以免他所發展出來的測驗工具缺乏效度（validity）？（25 分）

請根據表一，計算並說明性別和學科偏好之間的關係是否存在？（25 分）表一性別和學科偏好的抽樣結果性別喜愛的學科總數英語科自然科社會科男 37 41 44 122 女 35 72 71 178 總數 72 113 115 300 附註：df=2 ,χ2=5.99

請說明將原始數據製作及呈現統計圖（Statistical Graphics）的各種目的。（20 分）

某教育學者想探究自然科學教育中，教師是如何進行教學評量的。他建議第一線的教師，應該採行實作評量（performance assessment）方式來進行，方能評估出學生動手操作的學習成就。請問：第一線的教師可以採用什麼評定方法，來評量學生動手操作的學習成就？（25 分）

測驗編製者所提供的常模是否適當？應根據那幾項標準判斷常模的適切性？（25 分）

何謂辛普森悖論（Simpson's Paradox）？其對於教育行政人員在分析、解釋及應用所得數據的啟示為何？（25 分）

在描述統計學中，試比較平均數（mean）、中位數（median）及眾數（mode）三者，在常態分配、正偏態分配、負偏態分配中的大小關係？（25 分）

請計算表二連續性資料X 與Y 兩變項的相關係數。（25 分）表二學生 X Y A 9.0 81.00 B 5.0 25.00 C 3.4 11.56 D 8.0 64.00 E 8.2 67.24 F 3.9 15.21 106年公務人員特種考試外交領事人員及外交行政人員、民航人員、稅務人員及原住民族考試試題代號：70560 全一張（背面）考試別：原住民族特考等別：三等考試類科組：教育行政科目：教育測驗與統計

請說明二階段診斷測驗（Two-tier Diagnostic Test）的編製旨趣及歷程。（25 分）

某教育學者想知道學習成就上「城鄉差距」的情形。他利用中研院TEPS 資料庫中的「綜合分析能力測驗」成績（以T 分數表示）為資料分析依據，獲得下列統計報表。 Descriptive statistics 地區分類 N Mean Sd Se Min Max 鄉村 927 44.27 9.360 .307 12 71 城鎮 5200 48.58 9.843 .136 15 82 都市 7841 51.62 9.783 .110 16 82 全體 13968 50.00 10.00 .085 12 82 Summary table of analysis of variance SV SS df MS F p Between 61508.9 2 30754.43 321.67 .000 Within 1335191.1 13965 95.61 Total 1396700.0 13967 試問：（每小題5 分，共25 分） 本研究所列舉的虛無假設為何？ 本研究所使用的統計檢定方法為何？ 本研究檢定結果所達成的第一類型錯誤率為何？ 都市與鄉村之間的測驗成績相差多少分？ 本研究檢定結果是否可以支持該學者所認為的「學習成就上確實存在著城鄉差距」的看法？

下表是五個試題的題目分析結果，A、B、C、D 欄內的數字代表選擇該選項的人數。高分組和低分組的分組人數各有8,133 人。表中高分組人數中有＊的那個選項為正確答案。題號分組 A B C D 難度指標鑑別度指標 1 高分組 27 1 6,342 ＊ 1,763 低分組 162 45 1,721 6,202 2 高分組 1,328 6,785 ＊ 14

低分組 5,701 2,044 342 43 3 高分組 29 6,056 491 1,556 ＊低分組 99 3,854 1,675 2,496 4 高分組

8,101 ＊ 5 20 低分組 48 7,879 89 112 5 高分組 114 894 6,474 ＊ 650 低分組 2,525 1,100 1,708 2,792 列式計算各題的難度指標值及鑑別度指標值。（5 分） 設此項考試為常模參照測驗，五個題目測量同一能力指標，若想從這五個題目選取三題，你會挑選那三題？又因作業疏失，有個題目正確答案標錯了，找出最可能標錯正確答案的題目。兩者均需說明理由。（7 分） 分別評析各試題的誘答選項設計，並說明五個試題中那個試題的誘答選項設計比較理想。（8 分）

某校在數學（M）與英語（E）的評量方式包括教室觀察（O）、紙筆測驗（T）以及實作表現（P）等三種，分別以MO、MT、MP、EO、ET、EP 代表學生在這三種評量方式中，數學和英語的得分情形。該校計算學生這6 項分數之間的兩兩相關。請問若要證明這些評量有聚斂（Convergent）及區辨（Divergent）效度，則這些分數中，那些相關應該較高？而那些相關應較低？ 請先說明何謂聚斂（Convergent）及區辨（Divergent）效度。（15 分） 再說明那些應較高，那些應較低。（10 分）

一般言之，心理或教育測驗具有評估（assessment）、診斷（diagnosis）和預測（prediction）三種主要功能。試從測驗效度的觀點：（每小題10 分，共20 分） 說明運用測驗能否預測學生未來發展的可能性。 試舉例說明之。（提示：毋須舉已發行的測驗，舉測驗類型即可，如人格測驗、智力測驗、性向測驗或成就測驗等。）

請問何謂效標參照測驗？何謂常模參照測驗？請問大學學科能力測驗與補救教學科技化評量是屬於那種測驗？請說明你的理由。（20 分）

項目反應理論也稱試題反應理論（item response theory；IRT），係現代測驗重要理論的一支，此理論已廣泛應用於教育與心理測驗或其他領域。目前常被使用之IRT 模式（models）有單參數（one-parameter logistic 或Rasch model）模式、雙參數（two-parameter logistic）模式及三參數（three-parameter logistic）模式。IRT 模式中三個參數通常以a、b 及c 表示之：（每小題10 分，共30 分） 請扼要說明項目反應理論，並説明模式中三個參數a、b 及c 分別代表何種意義。 三種模式各強調那幾個參數？ 試説明理論上a、b、c 三個參數值的範圍及其實際應用時參數值的範圍。

本頁資料來源：考選部歷屆試題·整理提供：法律人 LawPlayer· lawplayer.com