基于贝叶斯网络模型的自适应测评
今天主要跟大家介紹一篇關于自適應測評(CAT)的文章,基于貝葉斯網絡模型的自適應測評
文章標題:Bayesian Network Models for Adaptive Testing
1、Abstract
使用貝葉斯網絡來創建測試人類的模型
提出了幾種不同的貝葉斯網絡,并通過交叉驗證對它們進行了測試和比較
2、Introduction
2.1、CAT–計算機自適應測評
傳統的測評方式:就是一張考試卷,所有人都回答同一張試卷,來測出每個學生的能力以及掌握程度。
那么什么叫自適應測評呢?
- 基于學生上一題及之前測評題上的作答情況,采用大數據及人工智能技術自適應選擇下一道測評習題
- 每個人最終形成一套個性化的測評題集
- 高效:僅少量的題可測評出學生能力
如左圖可以看到給學生一個問題Qt,根據學生做題目的對與錯,然后有一個認知診斷模型進行診斷,然后再通過選題策略,選擇與學生能力相匹配的題目,通過少量的題目能夠快速診斷出學生的能力。同時避免了對一些低水平的同學,題目太難,使學生喪失信心,或者對于一些高水平的學生,題目太簡單, 使學生變得無聊。
右圖展示的是個性化測評題集,首先由兩個同學e1、e2開始作答,第一題給相同的題目,根據兩個同學的答題情況,e1同學答對了,那么就會從題庫里選擇比較難一點的題目。e2同學答錯了,那么下一道題就從題庫選擇簡單的題目。真正做到千人千面,不同的學生所對應的題目也有差異。
背景
自適應測驗包含兩部分:
一部分是認知診斷模型,即之前更新的NeuralCD,還有經典的IRT、MIRT 模型。還有一部分是選題策略,基于診斷模型對學生的學習情況做出診斷結果,然后給學生選些題目,學生做了以后再給學生一個診斷,根據診斷結果再給學生選題,然后再診斷再選題,這樣周而復始,這就是自適應測試的過程。
上圖后期我會繼續更新博客來進行補充,今天主要講貝葉斯網絡模型的自適應測評。
貝葉斯網絡是一種條件獨立性結構,其對CAT的使用可以理解為項目響應理論(IRT)的擴展
2.2、貝葉斯網絡
貝葉斯網絡:用來反應世界上一些事物的可能的情況的發生概率
結構組成:貝葉斯網由一個有向無環圖(DAG)和條件概率表(CPT)組成
優點:提供了方便的框架結構來表示因果關系,使得不確定性推理變得在邏輯上更為清晰、可理解性強。
圖中共有五個結點和五條弧。下雪A1是一個原因結點,它會導致堵車A2和摔跤A3。而我們知道堵車A2和摔跤A3都可能最終導致上班遲到A4。另外如果在路上摔跤嚴重的話還可能導致骨折A5。這是一個簡單的貝葉斯網絡的例子。
我們可以看出在貝葉斯網絡當中的弧表達了結點間的依賴關系,如果兩個結點間有弧連接說明兩者之間有因果聯系,反之說明兩者之間咩有依賴關系,是相互獨立的。
為什么要用這個?
用貝葉斯網絡結構可以使人清晰的得出屬性結點間的關系,進而也使得使用貝葉斯網進行推理和預測變得相對容易實現。
下面就是條件概率表(CPT)
當使用貝葉斯網絡進行推理時,實際上是使用條件概率表當中的先驗概率和已知的證據結點來計算所查詢的目標結點的后驗概率的過程。
還是以上圖節點連接的例子來解釋,如果將結點A1下雪當作證據結點,那么發生A2堵車的概率如何呢?
可以看表2.1,知道了下雪了堵車的條件概率。
如果是多個條件時,那么將會復雜一點,由表中可以看出,當堵車A2和摔跤A3取不同的屬性值時,導致遲到A4的概率是不同的。
所以說在自適應測評的過程中,我們知道了學生回答一些問題的證據來預測后續正確回答題目的概率
Data Collection
設計方案:一份針對文法學校學生數學知識的紙質測試,內容主要是簡單函數(主要是多項式、三角和指數/對數)。學生們被要求解決不同的數學問題,包括圖形的繪制和閱讀,圖形上點的計算,求根,函數形狀的描述和其他函數性質。
將問題分解成子問題:
可以將子問題從主要問題中分離出來,然后獨立或獨立地解決它。----完全獨立
無法分離子問題,但它代表了主問題解決方案的一個子例程。-----不可分割的組成部分
最終版本測試:29道數學題,評為0-4分
問題被進一步細分53個子問題, 子問題被分級,使得它們的分數之和是父問題的分數,即它落入集合{0,.。。。,4}。
3、貝葉斯網絡模型
模型定義
討論不同的貝葉斯網絡模型,在解決數學問題時,我們使用不同的貝葉斯網絡模型來建模學生的數學技能和學生成績之間的關系.
首先進行定義
下圖是具有一個隱變量和學生個人信息的貝葉斯網絡,此節點連接到所有問題
下圖是具有7個隱藏變量的貝葉斯網絡,也叫專家模型,題庫共63道題,題目以0,1計分,共7個skill,左圖的紅色部分對應這7個skill,黃色的表示試題,每道題所考察的skill用箭頭表示
14種貝葉斯網絡模型
根據模型類型可以知道,就是在模型定義里面各個變量進行組合
主要有:技能節點、技能節點狀態空間、問題變量定義、附加信息
技能節點:主要設置的都是1,還有就是專家模型,表示的7個技能節點。
技能節點的狀態空間:作為一個未被觀測到的變量,很難決定它應該有多少個狀態。在模型中,我們使用了具有2種或3種狀態。
問題變量:主要分為布爾類型和整數型,使用布爾值(正確/錯誤)0/1評估每個子問題,或者使用整數型來進行評估,每個問題分為0-4分
附加信息:額外增加了學生的個人信息,可能會提高學生模型的質量
通過這4個變量總共組合的有14種貝葉斯網絡模型
4、自適應測試(CAT)
首先,選擇所使用的模型,如果這個模型包含額外的信息變量,那么在我們開始選擇和提問之前,有必要插入這些變量的觀察狀態。接下來,重復以下步驟:
- step1 選擇下一個要問的問題
- step2 提出問題并獲取結果
- step3 將結果作為證據插入網絡
- step4該網絡將使用此證據進行更新
- step5 (可選)估計后續答案
4.1 選擇下一個題目
Xs代表未觀察到(未回答)的變量
目標:從Xs中選擇一個變量作為下一個問題,選擇一個預期信息收益最大的問題。
假如我們決定回答問題X’,可能回答的結果x’,插入觀察到的結果后,所有技能的熵都會改變。我們重新計算熵值,熵H(e,X’= x’j)是所有技能節點上各個熵的總和。
現在可以在回答問題X’之后計算期望的熵
我們選擇一個問題X *來最大化信息增益IG(X’,e)
4.2更新
選擇的問題X* 被提供給學生,并獲得他/她的答案。該答案將變量X 的狀態從未觀察狀態更改為觀察狀態x *。接下來,將問題及其答案插入證據向量e。我們用更新的證據e更新技能變量的概率分布P(Si | e)。我們還重新計算了熵H(e)的值。還將問題X *從Xs中刪除,從而形成下一步s的一組未觀察變量Xs + 1,并且可以重復選擇過程。
下圖是將整個過程進行簡化
選題的標準:信息增益
可以看到這個y是沒有觀察到的,是可能作為下一題,我們現在計算這個時候的熵值
然后上面這個差值,就是信息增益。
最后在每一步選擇能給他最大期望信息增益的問題
停止規則:當熵低于預先設定的閾值時,測試結束
5、模型評估
對于每個模型,以9:1劃分訓練集和測試集
訓練集:了解相應的貝葉斯網絡,使用EM算法實現來學習模型參數
測試集:用來進行測試
重復10次,獲得每種類型的10個網絡
附加:EM算法
最大期望算法(Expectation-maximization algorithm,又譯為期望最大化算法),是在概率模型中尋找參數最大似然估計或者最大后驗估計的算法,其中概率模型依賴于無法觀測的隱性變量。
第一步是計算期望(E),利用對隱藏變量的現有估計值,計算其最大似然估計值;
第二步是最大化(M),最大化在E步上求得的最大似然值來計算參數的值。M步上找到的參數估計值被用于下一個E步計算中,這個過程不斷交替進行。
EM算法具體樣例
收集的初始證據和答案將插入模型中。在測試過程中,我們根據迄今為止收集的證據估算了當前學生的答案。在步驟s的最后,我們為所有未觀察到的問題Xi∈Xs+ 1計算了概率分布P(Xi | e)。然后,我們選擇了Xi的最可能狀態:
通過將該值與真實答案x’進行比較,我們在步驟s中獲得了測試(學生)t的所有問題Xi∈Xs + 1的響應估計的成功率。
在步驟s中,所有測試數據(N = 281)的一個模型的總成功率定義為
整個過程簡化:
實驗結果
表4顯示了選定步驟s=0、1、5、15、25、30的建議網絡成功率。
相似成功率的三種模型:具有3個狀態的技能變量的模型,具有2個狀態的技能變量的模型、專家模型。
如下圖所示:我們從每個聚類中選擇最佳模型
具有3個狀態的技能變量的模型更為成功。具有2個狀態的技能變量的模型較好,但是對于CA T來說,此測試階段不是很重要,因為如上所述,測試通常在早期階段終止。該專家模型在中期達到了中等質量的預測,但是在測試的后半部分其預測能力下降了。
也就從側面反映了:模型之間的區別基本上僅在于模型中使用的技能變量的差異
6、Conclusion
- 較大的技能變量狀態空間是有益的。顯然,在測試的最重要階段中,具有隱藏技能變量的3個狀態的模型表現更好。仍然需要對具有3種以上狀態的隱藏變量進行測試。
- 專家模型的得分不及簡單模型,但顯示出改進的潛力。所提出的專家模型比本文中的其他模型復雜得多,并且可能可以通過收集更多數據來提高其性能。
- 提供的附加信息僅在初始階段會改善結果。這一事實是肯定的,因為在實踐中很難獲得此類附加信息。另外,使用此類信息對學生的技能做出假設在政治上是不正確的。
這是近期看的一篇文章,主要是補充計算機自適應測評(CAT)的整體框架,主要介紹了用貝葉斯網絡模型來實現自適應測評。后期也會繼續補充背景圖中的其他框架,同時多目標優化方面也會不定期更新,關注我,每天學習新知識,我們大家一起共勉!
總結
以上是生活随笔為你收集整理的基于贝叶斯网络模型的自适应测评的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据集的划分--训练集、验证集和测试集
- 下一篇: Linux进程间通信