前些天一個學弟發郵件諮詢有關自動做文評分的問題,在瞭解了這是他們導師佈置的一個任務後,出於作統計機器翻譯的慣性思惟,我立刻想到的是利用語言模型對做文進行流利度方面的打分,但也意識到這是一個粗糙的甚至是錯誤的評分系統,由於它連最基本的做文長度都沒有考慮。
因而找了一些這方面的中英文材料看了一下,才發現自動做文評分系統在國外研究的不少很熱甚至都已應用到真實的考試任務中去,而國內的研究寥寥,至少說明這個學弟選了一個頗有應用前景和挑戰性很強的方向。
後來,我又與這個學弟在QQ上進一步作了交流,對於這個任務的界定清楚了一些。首先,他們將任務定爲:四、6級考試的自動做文評分系統。有了明確的任務,就能夠討論一些具體的方法,這方面我也不懂,可是有一點基本達成了共識:自動做文評分能夠歸入到文本分類方法的範疇中,因此學弟應該關注一下文本分類的方法學習;若是採用文本分類的方法作這套自動做文評分系統,首先要收集一套已經評過度的四、6級做文素材。至此,我能提供的建議就僅限於此了,若是哪位讀者對這方面比較在行,不妨給這位學弟提點建議?這裏先謝過了!工具
關於自動做文評分,陳瀟瀟和葛詩利於2008年9月發表在《解放軍外國語學院學報》的《自動做文評分研究綜述》對於想初步瞭解自動做文評分的讀者來講是一個不錯的閱讀素材,這篇文章對國外成熟的6大自動做文評分系統進行了不一樣程度的描述,而縱觀這這些系統,無不與天然語言處理的相關技術緊密相連,如下是相關係統的一些簡介:
一、Project Essay Grade ( PEG)
PEG是Ellis Page於1966年應美國大學委員會的請求而研發的, 其目的就是爲了使大規模做文評分更加實際而高效。PEG徹底依靠對文章的淺層語言學特徵的分析對做文進行評分, 根本沒有涉及內容。它使用代理量度標準(proxy measures) 來衡量做文的內在質量以模擬人對做文的評分。做文評分本應該直接針對做文的內在質量進行評判。但內在質量, 如寫做的流暢性、句子結構的複雜度、文章措辭的狀況等難以用計算機直接測量。因而PEG採起了間接測量寫做構念分項指標的方法, 即所謂的代理量度標準。好比: 做文長度表明了寫做的流暢性; 介詞、關係代詞等代表了句子結構的複雜度; 詞長的變化代表了文章措辭的狀況(由於很是用詞通常都較長)。
PEG因爲其對語義方面的忽視和更多地注重表面結構而遭受指責。因爲對做文內容相關方面的忽視, 該系統不可以給出對學生有指導意義的反饋。另外, 該系統最大的問題, 就是對寫做技巧的間接測量很容易被寫做者利用, 如寫出文理不通的長文以獲取流暢性方面的高分, 欺騙計算機。
二、Intelligent Essay Assessor ( IEA)
IEA是上世紀90 年代末由Pearson Knowledge Analysis Technology 公司在潛在語義分析( latent semantic analysis) 技術的基礎上開發的。潛在語義分析原本是一個用於文本索引和信息提取的複雜統計技術, 其定義爲「一個單詞用法的統計模型, 該模型容許對片段文本包含的信息之間的語義類似性進行比較」。其核心思想就是一個段落的意義, 在很大程度上取決於該段落所包含的詞彙的意義, 即便只改動一個單詞, 也可能使這個段落的意義發生改變。該思想能夠總結爲「詞彙1的意義+詞彙2的意義+ ⋯⋯詞彙n的意義=段落的意義」。另外一方面, 兩段由不一樣詞彙構成的段落, 其意義也可能很是類似。經過大量文本的數學計算能夠發現, 當某些不一樣的單詞以較高的頻率出現於相同或類似的語境時, 能夠推算出這些詞彙意義的相近。而由不相同但意義相近的單詞構成的段落, 其意義也可能很是類似。
在自動做文評分中, 該技術可以將學生的做文按照它所包含的單詞投射成爲可以表明做文意義(內容) 的數學形式, 而後在概念相關度和相關內容的含量兩個方面與已知寫做質量的參考文本進行比較, 從而得出學生做文的評分。
三、Electronic Essay Rater (E-rater)
E-rater是由Educational Testing Service ( ETS)的Burstein 等人在上世紀90 年代末開發的。目前ETS 正利用該系統對GMAT中Analytical Writing Assessment (AWA ) 部分進行評分, 並於2005年開始應用於托福考試的做文評分。在E-rater 付諸應用以前, GMAT 的AWA由兩名評卷員在6分的範圍內作出總體評分,若是兩名評卷員的評分差別超過1分, 就須要第三名評卷員來處理。E-rater從1999 年2 月應用於AWA的評分。試卷的最終得分由E-rater和一名評卷員決定。同先前由兩名評卷員共同閱卷的狀況相似, 若是E2rater跟評卷員的評分差別超過1分, 第二名評卷員就參與解決這個問題。據Burstein 講,自從E-rater應用於GMAT的AWA 的評分, E-rater與評卷員的分歧率一直低於3% , 這並不高於兩名評卷員的分歧, 所以徹底能夠用於各類標準化考試的做文評分。E-rater系統採用基於微軟天然語言處理的工具包來分析文章, 包括詞性標註器爲文本中每個單詞賦予詞性; 句法分析器分析文本中的句法結構; 篇章分析器分析文本的篇章結構。採用詞彙類似性度量器, 以統計技術中的簡單關鍵詞分析法分析文本中的詞彙使用。另外, 採用了基於語料庫的方法建模。使用統計與天然語言處理技術來提取待評分文章的語言學特徵, 而後對照人工評分的標準做文集進行評分。評分過程主要由5個獨立模塊來進行。3個用來識別做爲評分標準的特徵, 包括: 句法模塊、篇章模塊和主題分析模塊。這3個模塊分別用來提取做文的句法多樣性、思想的組織和詞彙的使用方面的67個文本特徵的特徵值。第4個模塊, 即模型構建模塊, 用來選擇和加權對做文評分具備預測力的特徵。即把前3 個模塊提取的數據做爲自變量,人工評分的分數做爲因變量進行逐步線性迴歸, 在67個變量中進行篩選, 創建迴歸方程。第5個模塊用來計算待評分文章的最後得分, 即提取做文顯著特徵的特徵值, 代入迴歸方程計算得分。
四、IntelliMetricTM
IntelliMetricTM是由Vantage Learning開發的, 第一套基於人工智能(AI) 的做文評分系統。它可以模仿人工評卷, 在1到4或者1到6的分值範圍內對做文的內容、形式、組織和寫做習慣進行評分。它集中了人工智能、天然語言處理和統計技術的長處, 是一種可以內化專家級評卷員集體智慧的學習機。其核心技術是Vantage Learning的CogniSearchTM和Quantum ReasoningTM 。前者是專門爲IntelliMetricTM開發, 用來理解天然語言以支持做文的評分, 如它能分析詞性和句法關係, 這使得IntelliMetricTM可以依據英語標準書面語的主要特徵來評判做文。兩者結合使得IntelliMetricTM可以內化做文中與某些特徵相關的每個得分點, 並用於接下來的做文自動評分。
IntelliMetricTM須要採用專家級評卷員已經評好分數的做文集進行訓練。在評分過程當中, 系統採用了多個步驟。首先, 根據已評分數的訓練集進行內化訓練, 構建模型; 而後用較小的測試集檢測模型的效度和歸納度。兩項都獲得確認後, 即可用於待評分做文的評判了。一旦根據標準美式英語或者先前訓練獲得的標準, 某些做文被評估爲不正常, 系統會自動作出標註。
IntelliMetricTM評估了做文中語義、句法、篇章3個層次的300多項特徵。在性能方面據稱可以跟專家級評卷員給出的分數同樣準確, 與評卷員的一致率達到了97%至99%。另外, IntelliMetricTM可以評閱多種語言的做文, 如英語、西班牙語、以色列語和印度尼西亞語。對荷蘭語、法語、葡萄牙語、德語、意大利語、阿拉伯語以及日語等多種語言文本的評價如今也可以作到了。
五、Bayesian Essay Test Scoring sYstem(BETSY)
BETSY是由美國教育部投資, 由馬里蘭大學College Park的LawrenceM. Rudner開發的, 以機率論爲指導, 基於訓練語料對文本進行分類的程序(Valenti, et al. , 2003) 。該系統使用了包括內容與形式等多方面的一個大型特徵集, 根據4點類型尺度(優、良、合格、不合格) 把一篇做文劃分到一個最合適的集合中去。(Rudner & L iang, 2002) 文本分類所採用的底層模型是多元伯努利模型(MBM) 和伯努利模型(BM) , 二者都屬於樸素貝葉斯模型,由於它們都以條件獨立假設爲前提。BETSY的計算量很是大, 但據其開發者聲稱, 因爲該系統使用的方法可以整合PEG、LSA 和E2rater的最佳特徵,「再加上自己所特有的長處, 使它具備如下特色:可以用於短文評測, 易於使用, 適用的內容範圍寬廣, 可以產生診斷性結果, 可以調節以用於多種技能的分類, 以及容易使非統計人員明白其中的道理」。值得一提的是,BETSY是做文自動評分領域惟一可免費下載使用的軟件。
六、Larkey的系統
最先把文本統計分類方法用於做文自動評分的Larkey 以及Croft 在這個領域也作出了很大貢獻。在他們的研究中, 採用了貝葉斯獨立分類方法和最近鄰分類方法( k-nearest-neighbor, 簡稱kNN) , 並提取11個文本複雜性特徵用於線性的迴歸計算。在他們的實驗中, 單獨的貝葉斯獨立分類方法有着穩定而良好的表現。然而, 加入文本複雜性特徵和最近鄰分類方法後, 系統性能並無獲得顯著的改善。在這種評分方法中, 做文長度的重要性不像其餘自動評分系統那樣明顯。性能