自適應學習

試題自動匹配知識點,並根據使用者的使用狀況,爲其推送相應的試題。java

知識圖譜

什麼是知識圖譜

知識圖譜是一種結構化的語義網絡,是用來表示實體與實體之間關聯的結構化語義網絡。

在使用知識圖譜的時候,會用圖的形式來描述知識工程中知識實體的關係。其中節點表示實體,邊用來表示實體之間的關係。在這裏引入三元組「實體-關係-實體」或「實體-屬性-屬性值」進行知識表示, 每一個實體可用一個全局惟一肯定的ID標識, 屬性-屬性值描述知識實體的內在特性, 知識實體之間經過關係構成網狀的知識結構。算法

因此在這裏,筆者忽然對知識圖譜產生一種熟悉的感受,沒錯,ER圖!不難發現,這根咱們構建ER圖所用到的元素基本一致。數據庫

下圖爲知識圖譜的網絡結構,其中Ei爲知識實體,Ri,j表示實體之間的關係,ET表示實體的屬性:網絡

image.png

咱們也能夠將實體的屬性用外連一個圓的方式表示,好比:機器學習

image.png

知識圖譜從邏輯上分爲數據層和模式層,數據層上一知識以事實爲單位儲存在數據庫中,每條知識用一個SPO(Subject-Predicate-Object)三元組表示。模式層用於存儲通過提煉的知識。學習

知識圖譜的構建

知識圖譜的構建從原始數據出發,經過一些技術,將知識事實從原始數據中提取出來,再把知識元素放到知識庫的數據層和模式層中。知識圖譜的構建是一個迭代更新的過程搜索引擎

image.png

知識圖譜包括自頂向下和自下而上兩種構建方式spa

關聯規則的挖掘

以搜索引擎爲例,咱們在輸入要搜索的內容時,都會爲咱們補全要搜索的內容。它會找出互聯網上經常一塊兒出現的詞語對,而後爲咱們進行推送補全。.net

應用到咱們的內容上,當有某個詞語經常與某個知識點進行匹配,那麼咱們就能夠找出高頻的進行推薦,那麼在進行匹配的時候,就不須要掃描整個知識庫,這將節省很大一部分匹配時間。設計

FP-Growth算法,將數據集存儲在一個特定的稱作FP樹的結構以後發現頻繁項集或者頻繁項對,即常在一塊出現的元素項的集合FP樹。而後再對FP樹進行挖掘,找到咱們須要的關聯信息。

文本分類

機器學習中有監督(須要對數據進行已知分類的標記)的分類方法,基於提早定義好的文本類別,經過把文本數據做爲分類的對象,將須要分類的文本劃分至提早定義好的文本類別中。

該技術將會用於試題的知識點匹配。

聚類分析

相較於文本分類,聚類分析是一種無監督(不須要對數據進行標記)的學習方法。它的原理是基於特定的數據集尋找該數據集中具備類似特徵的數據,並把擁有類似特徵的數據劃分爲一組。

該技術會在分析使用者的行爲時使用。

試題自動匹配知識點

思路分析

文本數據預處理——>文本特徵的提取——>分類模型效果比對——>選擇分類模型:
image.png

文本預處理

處理分詞和停用詞過濾。

分詞,將長句或段落轉換爲多個簡單詞和標點表示。能夠將中文連續字節流用離散單詞流形式代替。即採用特定詞典的分詞方法按照特定的分詞算法進行分詞。

停用詞過濾處理。分詞後的文本包含許多沒有意義的單詞,停用詞過濾處理就是將一些徹底沒有用或是沒有意義可是出現頻率很高的單詞去除。

文本特徵提取

TF-IDF:經常使用語數據挖掘的加權技術。在進行以前,須要將處理過的文本用計算機能識別和處理的結構化形式表示,用向量空間模型VSM來表示。同時,將加權的文本特徵記性形式轉換處理,記爲:Ci=(Ci1,Ci2,Ci3...Cij...Cin),Cij表示第i個試題文本,第j個特徵值的權重。

Cij = TFij x IDFj

其中TFij表示第i個試題文本中,文本特徵項j出現的詞頻,IDFj表示整個文本特徵集中特徵項j出現的次數,即逆向文檔頻率。

分類器分類

生成矩陣表示試題和知識點之間的從屬關係:

image.png

其中qkij表示試題Qi和知識點Kj之間是否具備從屬關係,便是否屬於知識點Kj

總結

初步對功能實現的基本過程,以及對實現過程當中可能會用到的方法、算法作了整理總結,還有不少細節的地方沒有考慮清楚。總體上,實現將題目和知識點進行匹配,最關鍵的仍是知識圖譜的構建。


相關參考:
http://www.javashuo.com/article/p-gxrtouue-kx.html
基於知識圖譜的自適應學習系統的設計與實現
基於知識圖譜的自適應學習系統的研究與實現

相關文章
相關標籤/搜索