咱們一說到教育,就不可避免地會談到中考、高考,這些高風險考試(high-stakes tests)。雖然你們對「教育測量」這個概念可能不那麼熟悉,但關心教育行業的夥伴對如下問題可能會比較有共鳴。好比:咱們如何決定一張試卷是否是適合當年、當地的考生?咱們如何爲不一樣學科的試題賦值,應該使用等級、原始分數仍是轉換分數?新高考的計分邏輯和原始分數有什麼不一樣?選科高考後,你們選擇的科目都不同,分數可比性怎麼解決?這些問題背後的邏輯都與教育測量學密不可分。微信
其實,教育測量的理論和技術,不只僅會應用在大型高風險考試,還能夠應用在老師們平常教學的閉環中。好比,在面對一個新生的時候,咱們如何知道學生初始的知識掌握水平?在教學期間,咱們如何知道學生對一個知識點有沒有掌握、掌握到什麼程度?在一段學習以後,咱們如何知道學生相比較剛來報班的時候有沒有水平的進步或變化?學科能力水平這樣的抽象概念,咱們很難一眼看到,不像咱們的身高、體重那麼直觀。因此咱們就要依賴測量工具來對這些抽象、潛在的心理維度進行外化和量化,得到關鍵的學情信息,讓咱們直觀地透過學生的做答信息和做答結果來回答這些問題,牽引着老師們在平常教學過程當中的每一步動做。架構
那麼,教育測量(Educational Measurement)究竟是幹什麼的呢?實際上,教育測量要作的事兒就是對各類與教育相關的事物進行量化,給這些事物指派數字,最終來實現不一樣的教育決策(例如:選拔、評價、因材施教等)。以評價爲例,咱們能夠經過各類不一樣形式的「考試」把學生的學習表現量化,用數字或者等級來表明,進而評價學生的學習效果。咱們也能夠經過對老師平時的教學行爲進行量化,用數字或者等級來表明,來評價老師的教學效果。中國著名心理學家張厚粲老師說,「一我的的經驗再豐富,也不免帶有必定的侷限性。再好的售貨員不用尺或秤,而僅憑經驗賣布賣糖時也會出錯」。教育測量學就是但願能夠用科學方法保證試卷的質量,確保能夠精準地測量與教育相關的事務,保證根據分數作出的決策是合理的、公平的。 框架
在教育測量學中,衡量測評工具最重要的兩個指標是信度(reliability)和效度(validity)。其中,信度是指這個測量工具要可靠、穩定地測查咱們關注的維度,好比:學生的學科能力。效度是指這個測量工具確實是在測試咱們所關注的維度,而不是其餘不相關的維度。好比:數學考試就是測試學生的數學能力,而不是學生的英語能力。這兩個概念,會在咱們後續的文章中爲你們詳細介紹。運維
在這篇文章中,咱們將具體介紹在教育測量領域中被普遍使用和研究的一種現代測量理論,名爲項目反應理論(Item Response Theory,IRT)以及這個理論下的經常使用技術和模型,讓咱們從一個科學、技術的眼光看看考試背後的故事。函數
在介紹測驗理論以前,咱們先從你們的作題和考試經驗來入手體會一下不一樣理論的差別。傳統考試裏你們作一份題,作完之後老師反饋試卷總分,若是咱們忽略每一個題目的分值,其實每一個人的考分能夠表達爲做答正確的百分比。好比,一份試卷20題,對了15題,那麼最後試卷得分就是75%。那麼,75%的正確率表明什麼呢?首先,咱們平常在出試卷的時候,必定不是隻關心學生在這張試卷上表現怎麼樣,而是咱們想經過這張試卷的20題,去推斷他能力到底怎麼樣。這張試卷的20題是對學生知識掌握狀況的抽樣,若是再給這位學員40題,他是否能夠作對75%的試題,也就是30題?若是是80題,他是否可以作對60題(依然是75%正確率)?這裏隱含的假設是,咱們老師抽選的20個題是無窮無盡的題海中的一個有表明性的樣本。 工具
可是,當老師們組出的20個題並非對於一個年級有表明性的樣本時,或者試卷間考察的知識點自己就不一樣時,則沒有辦法認爲一個考生在試卷A的正確率是75%,他在試卷B上的正確率也是75%。這樣只經過整體試卷正確率去評價學生的方法是有一個測量理論支持的,叫作經典測驗模型(Classical Test Theory,CTT)。源碼分析
要了解項目反應理論(Item Response Theory, IRT),咱們首先須要認識一下CTT——由於正是CTT的侷限性,纔有了IRT產生的契機。CTT是在隨機抽樣理論基礎上創建的一套心理與教育測量理論體系,其核心假定是:在測驗水平上,觀察得分(observed score;也就是咱們一般的考試得分)等於真分數(true score;真實能力應該體現的分數)加上隨機偏差分數(error score;其餘不相干因素致使的偏差)。因爲咱們假設偏差是正態分佈上的隨機變量(均值爲0的),所以,若是同一個測驗或平行測驗能夠反覆測量同一我的足夠屢次,觀察分數的均值就會接近考生的真分數,隨機偏差的均值爲0。那這樣的理論主要有如下幾個侷限性:學習
既然CTT存在那麼多侷限性,是否有更科學、更實用的測量理論來彌補這些不足呢?咱們接下來要介紹的項目反應理論(IRT)就是爲解決這些侷限應運而生的。測試
2.1 IRT的基本框架動畫
IRT全稱爲Item Response Theory, 譯爲項目反應理論。其中所謂「項目」(item)其實就是指的咱們試卷中的題目,「項目反應」(item response)就是考生在具體題目上的做答。簡而言之,IRT就是創建在學生能力和做答正確率的關係上的。咱們知道,影響考生在項目上做答結果的主要因素有兩個方面:第一個方面是考生自己的能力水平;第二個方面是試題項目的測量學屬性,如項目難度、區分度、猜想性。在平常教學活動中,咱們都有這樣的經驗:對於一道編制質量很好的題目,全卷總分較低的考生在該題目上的正確做答機率較小,而全卷總分較高的考生在該題目上的正確做答機率相應較高。這種伴隨着總分的由低到高,題目正確做答機率由小到大變化的過程基本上是一種連續性變化的曲線。在經典測量理論中(CTT),卷面總分能夠被視做學生能力的表明,可是學生卷面總分是隨測驗的許多特性而變的。例如,隨着試卷難度的改變,同一考生的卷面總分也會隨之改變。那麼可否用一種穩定反映考生水平的潛在特質(latent traits)變量來代替卷面總分呢?
假設這種潛在特質(即考生的能力)是存在且可被測量的,咱們用θ來表示,那麼隨着考生的能力水平的變化,考生答對某題目的機率P(θ)也相應變化。這種描述考生能力水平與項目做答結果之間關係的數學模型被稱爲項目特徵函數(item characteristic function, ICF),以圖像表示則稱爲項目特徵曲線(item characteristic curve, ICC)。下圖1爲一典型的ICC:橫軸表示考生的能力水平,縱軸表示答對某題目的機率。每個題目會有本身的ICC。
圖1. 項目特徵曲線(ICC)
考生潛在特質θ在特徵函數ICF中是一個自變量,從理論上說θ的定義域是無窮的,從負無窮到正無窮均可取。P(θ)的值隨着θ的增大而增大,但以P(θ) = 1爲它的上漸近線。參數θ與卷面總分有必定的聯繫,正常狀況下二者呈正相關。可是,θ是考生水平更爲本質、精確的描寫。習慣上θ採用標準Z分數的表達形式,其上下限通常設定爲[-3,3]。
ICC的走勢除了受到考生潛在特質的影響外,還受到三個反映測驗試題特徵的未知題目參數alphaα、betaβ、c的影響,這三個參數決定了S形曲線的走向 (圖2)。alphaα參數被稱爲題目的區分度,它刻畫了測驗題目對考生水平區分能力的高低。在題目的ICC中,alphaα值是曲線拐點處切線斜率的函數值。曲線在拐點處越陡峭,值則越大,同時意味着能力θ在拐點處稍有變化,則在該題目上正確做答的機率差異較大,所以也就說明該試題起到了精細區分考生的做用。
圖2. 不一樣參數在項目特徵曲線上的含義
參數c被稱爲猜想參數,是指實際測驗中考生純憑猜想而做答成功的機率。直線P(θ) = c是ICC的下漸近線。若題目的猜想參數爲c,則意味着θ爲負無窮的考生在該題上正確做答的機率也爲c。
betaβ參數被稱爲題目難度。難度爲betaβ的題目,若排除c的影響,潛在特質θ剛好等於betaβ的考生,TA在該題目上正確做答的機率爲0.5。隨着題目betaβ值的升高,ICC在橫軸方向上向右平移,這時只有潛在特質更高的考生纔可能在新題目上得到相同的正確做答機率。所以,betaβ值肯定了,ICC在橫軸上的位置也就肯定了。與CTT中的難度參數不一樣,這裏的位置參數是定義在考生能力量尺下的,而不是單純考慮題目的做答狀況。
2.2 IRT理論下的不一樣模型
項目反應理論(IRT)中題目參數和潛在特質水平參數共同影響測驗的結果和精度。題目參數越多,對題目性質刻畫越精細,但相對來講,模型也就越複雜,應用越困難。那麼什麼樣的函數形式能夠整合考生潛在特質和題目特徵呢?研究者根據大量、可觀測到的做答反應曲線,擬合提出了IRT的兩個基礎模型——正態肩型模型(the normal ogive model)和邏輯迴歸模型(logistic model)。
因爲正態機率分佈曲線是一S形曲線,所以研究者(Lord, 1952)首先想到了用它來擬合ICC,而正態肩型模型也從理論上奠基了IRT初始模型的基本形式。可是因爲其模型中採用了積分函數的形式,在實際參數估計和使用中不方便,所以在1957年,Birnbaum將其改換成了logistic形式 (以下公式)。
其中, θ爲考生能力,alphaα爲題目區分度參數,betaβ爲題目難度參數,c爲猜想參數,D爲常量。P爲能力爲θ的考生正確做答某題目的機率。當D取值爲1.702時,此函數的機率密度與正態肩型曲線的差別小於0.01。因爲計算方便,目前多用此函數形式來描述ICC曲線。以上方程被稱爲三參數模型,當c=0時,該方程簡化爲雙參數模型;當c=0且alphaα值一致時,該方程只有項目難度參數betaβ,所以被簡化爲單參數模型。有一種特殊並被普遍應用的單參數項目特徵曲線被稱爲Rasch模型,由丹麥學者Rasch (1960)獨立提出,對於不一樣的題目,其alphaα值恆定爲1。
2.3 IRT模型參數估計
當咱們精心設計了一張試卷,並大費周章地獲得學員的做答數據後,應該怎樣利用這些數據估計學員的能力呢?針對具體的模型,IRT參數估計的過程就是要經過實測數據(即考生的做答數據),有時可能還須要藉助一些人們積累的經驗信息,獲取測驗中每一個項目參數的估計值,以及參加測驗的考生能力水平參數估計值。然而,在參數估計中,咱們只有考生的得分矩陣和一些先驗信息,考生的能力參數和項目參數均未知,咱們要如何估計這些參數呢?一種經典的估計方法須要用到一種名爲聯合極大似然估計(Joint Maximum Likelihood Estimation, JMLE)的方法對考生能力水平參數和項目參數進行聯合估計。
所謂聯合估計,具體來講就是首先以考生能力初始估計值做爲已知條件,利用極大似然估計的方法估計項目參數;而後以該估計的項目參數爲已知條件,從新校訂初始考生能力參數;將能力估計值標準化,而且將項目參數作相應變換,即將兩類參數放到同一量尺下;而後又以校訂後的能力參數進一步校準項目參數,如此循環遞推新值,直至兩類參數達到某個預先設定的標準爲止。
儘管JMLE的方法能夠同時估計考生參數和項目參數,但這種方法在實際運用中也存在很大的問題。例如:爲了更精確地估計項目參數,一個經常使用的方法是增長項目樣本量,可是增長樣本量的同時也會致使考生參數估計量的增長,所以就會有更多沒有額外項目信息的考生參數須要估計。同時,把考生參數和項目參數綁定在一塊兒也不是一種有效的計算方法,由於只要一個項目的模型擬合沒有作好,就須要從新進行整個項目參數和考生參數的估計。所以,在實際操做中,研究者廣泛採用一種更有效的項目參數估計方法——邊際極大似然估計(Marginal Maximum Likelihood Estimation, MMLE)。MMLE的方法是把考生當作是來自於某個已知分佈整體的表明性隨機羣體,能夠經過基於對該已知分佈進行積分的方式來估計項目參數。
已有考生做答數據信息,且項目參數肯定的情形下,一種經常使用的能力參數估計方法爲貝葉斯後驗指望估計的方法 (Expected a Posterior Estimation, EAPE)。EAPE的方法與極大似然估計的過程不同,能夠經過直接計算就獲得指望估計值,所以計算過程更簡單,速度更快,也符合傳統的貝葉斯思想,使它成爲能力參數估計的一個上佳選擇。
2.4 IRT的優點
在以上內容中,咱們介紹了IRT的理論框架、相關模型以及參數估計的內容,能夠看出IRT和CTT有很大的不一樣,那麼IRT是怎麼克服CTT的侷限的呢?它的優點又體如今哪裏?
2.4.1 項目參數與考生能力參數具備不變性的特徵
咱們在本節的開頭提到CTT參數的估計對參測樣本的依賴性很大,可是在IRT中測驗的題目參數具備跨羣體不變性,即題目參數估計獨立於參測樣本。具體來講,只要測試同一特質的測驗項目的參數具備足夠寬的覆蓋,也就是測驗中既有難的題目,又有中等難的題目,也有容易的題目,那麼無論題目分佈形態如何,考生能力參數的估計就不依賴具體的題目。同時,只要在同一維度上考生的能力水平分佈足夠寬,也就是在考生樣本中,既要有部分能答對該題目的考生,也要有些沒法答對的考生。那麼,無論考生分佈形態如何,項目參數的估計也不會依賴於具體的考生樣本羣體及其分佈形態。
2.4.2 項目參數與考生能力參數具備統一的量表
根據IRT模型估計出來的考生能力參數與項目難度參數具備統一的量表,即考生參數與項目參數能夠被標定在同一個參照尺度上。例如,能力估計值爲0.5的考生答對難度值爲0.4的題目的機率大於答錯的機率,而答對難度估計值爲0.6的題目的機率則小於答錯的機率。同時,在實際應用中,用於測試能力水平爲0.5的考生的最佳題目的難度也應該在0.5左右。距離0.5太遠的題目,對該考生來講或者太容易或者太難,並不能有效測量出考生的水平。
2.4.3 能夠針對不一樣考生精確估計每一個項目和測驗的測量偏差
IRT相比於CTT引進了題目信息函數的概念,並用信息量來替代信度的概念。信度與測量標準偏差之間存在反比關係,一個試題提供的信息函數越大,測試的偏差就越小。信息函數不只與參測題目性質有關,還與參測羣體的水平有關,即對不一樣能力的考生施測相同試題,其測驗偏差並不相同。同時,測驗題目信息函數具備可加性,一個測驗包含多個題目,它們的信息函數的累加值能夠被稱爲測驗信息函數。有了不一樣題目對不一樣考生單獨計算信息量值的方法,咱們就能夠對每一個考生的特質水平估計偏差進行主動控制,從而更加有利於指導測驗的編制。
綜上,咱們爲你們簡單介紹了教育測量的含義,並深刻描述了教育測量中普遍應用的現代測驗理論IRT(項目反應理論),包括其背後的邏輯和涵蓋的不一樣模型。相較於老師們主觀組合、實施的考試和經典測驗理論,應用IRT理論和技術能夠更加精準地測量學生的學科水平。其實,關於IRT的相關技術還有不少,能幫助咱們實現各類不一樣的測評目的,指引咱們的測評設計。而在應用場景方面,IRT除了應用在大型測評中的具體測驗設計和計分中之外(如:我國大學英語四六級考試),IRT的技術理論還能夠用於題庫建設和自適應測評的開發,感興趣的夥伴能夠持續關注硅谷研發部發表的文章,咱們會在以後的專題文章中和你們分享不一樣的測驗理論和技術的應用。歡迎你們持續關注!
參考文獻
招聘信息
好將來技術團隊正在熱招測試、後臺、運維、客戶端等各個方向高級開發工程師崗位,你們可掃描下方二維碼或微信搜索「好將來技術」,點擊公衆號「技術招聘」欄目瞭解詳情,歡迎感興趣的夥伴加入咱們!
也許你還想看
摩比秀換裝遊戲系統設計與實現(基於Egret+DragonBones龍骨動畫)