適用於特殊類型天然語言分類的自適應特徵譜神經網絡算法
王一峯, 孫麗茹, 崔良樂, 趙毅網絡
哈爾濱工業大學(深圳)理學院,廣東 深圳 518055機器學習
摘要:計算機算力的提高使得深度學習算法迅速發展,然而因爲古詩文特殊的語序、用詞、結構、句式、文法結構、表達方式,深度學習模型須要消耗更多的算力進行特徵提取等工做,所以並未在這一領域取得普遍的應用。爲此,提出了一種新型的神經網絡結構——自適應特徵譜神經網絡。該算法有效減小了運算時間,能夠自適應地選擇對分類最有用的特徵,造成最高效的特徵譜,獲得的分類結果具備必定的可解釋性,並且因爲其運行速度快、內存佔用小,所以很是適用於學習輔助軟件等方面。以此算法爲基礎,開發了相應的個性化學習平臺。該算法使古詩文分類的準確率由93.84%提高到了99%。ide
關鍵詞:自適應特徵譜 ; 神經網絡 ; 文本分類 ; 古詩詞 ; 拉普拉斯矩陣函數
論文引用格式:性能
王一峯, 孫麗茹, 等.適用於特殊類型天然語言分類的自適應特徵譜神經網絡[J].大數據, 2020, 6(4):92-104.學習
WANG Y F, SUN L R, et al.Adaptive feature spectrum neural networks for special types of natural language classification[J].Big Data Research, 2020, 6(4):92-104.測試
1 引言
文本分類問題是天然語言處理領域一個十分常見的問題,文本分類應用很是普遍,例如輿情分析、影評分析、新聞情感分析、新聞內容分類、垃圾郵件過濾、敏感信息自動屏蔽、社交軟件交流中對某句話的情感趨勢分析,以及購物網站中的「好評度」評估。總而言之,語言自己是一種人類智慧的體現,而文本做爲語言的載體,蘊含着大量的信息和規律,所以讓計算機掌握這種規律並進行模式識別和分類是一項對算法的巨大挑戰。而古詩文做爲一種特殊的語言形式,其表達方式與現代語言相比更加隱晦、精練,與白話文相比分類難度更高,所以本文選擇古詩文分類問題做爲文本分類的切入點,以便提出更優的文本分類算法。
文本分類算法是天然語言處理中很重要的一類算法,在20世紀50年代就已經有科學家藉助「專家系統」對文本進行分類,然而該方法可覆蓋的範圍以及分類準確率都很是有限,只能用於解決一些條件明確、描述清晰且有條理的文本分類問題。隨着統計學方法的發展,特別是20世紀90年代後互聯網在線文本數量的增加和機器學習學科的興起,逐漸造成了一套解決大規模文本分類問題的經典方法,其主要流程是「人工特徵工程+分類器」,即把整個文本分類問題拆分紅特徵工程和分類器兩部分。對於不一樣類型的文本,特徵選取方法是不一樣的,分類器的設計也是不一樣的,例如:採用Apriori算法對同時出如今語句中的特徵項進行篩選,進而實現分類;基於遺傳算法對詩文特徵項進行選取,接着利用樸素貝葉斯模型進行分類;經過均值漂移、譜聚類、k-means等聚類算法選取特徵,隨後採用支持向量機、距離加權最近鄰、貝葉斯模型等分類器進行分類。其中,使用聚類算法尋找特徵,隨後採用加權最近鄰分類器的方法是目前對中國古詩文分類準確率最高的一種方法,平均準確率能夠達到93.84%,其中,針對某一特定類型古詩詞文本的分類準確率最高能夠達到96.67%。
然而這些分類方法存在幾個主要缺點。首先,現有的古詩文本分類算法的性能依賴於初始特徵庫的選取,以專家選取的特徵庫爲基礎進行特徵聚類、文本分類的性能遠好於以普通人選取的特徵庫爲基礎的性能。除此以外,找特徵的過程與分類的過程每每是分離的,這會致使一些被選取的特徵對分類任務做用不大,應考慮將古詩文分類的結果直接反饋到找特徵的過程,進而幫助找到更好的分類特徵。這些缺陷最終致使在面對不一樣類型的文本,尤爲是面對語言委婉、內容寫意、抒情的文本時,難以設計出效果良好的分類器。所以本文設計了自適應特徵譜神經網絡來完成文本分類任務,它能夠自適應地選擇對分類有效的特徵,並組成「最優特徵譜」。
2 數據預處理
在機器學習算法中,輸入的數據一般是數值型的,所以須要將文字型文本特徵轉換爲數值型數據特徵,將輸入模型的文本變成向量,從而確保模型能夠進行計算和分類。
具體操做是用高頻詞組成特徵庫,再將特徵庫中的詞用向量表示。首先,使用Sunday算法查找古詩文中出現頻率較高的字詞,組成「特徵庫」。使用Sunday算法的好處是在字符串匹配時能夠大幅減小運算時間。Sunday算法查找原理如圖1所示。大數據
圖1 Sunday算法查找原理優化
任務是判斷文本串「枯藤老樹昏鴉,小橋流水人家,古道西風瘦馬。」中是否包含模式串「小橋流水」。從左端開始,比較模式串的第一位,若是匹配,則依次向下比較;若不匹配,則比較文本串中下一字符是否出如今模式串中(本例中「昏」並未出如今模式串「小橋流水」中),所以直接向右平移m+1個單位(m爲模式串長度)。重複上述過程,若發現文本串的下一字符出如今模式串中:本例中「流」出如今「小橋流水」中,這時直接將兩個「流」對齊,再逐位比較,最終發現匹配成功。
因爲古詩文中單音節詞佔多數,且文法注重典故、駢驪對仗、音律工整,所以在內容表達上就會有一些犧牲。此外,一些在現代文中並很少見的特徵詞(如「金樽」「澗戶」「左遷」等)在古詩文中卻並不罕見,現代文的分詞方法有時很難將其準確分開,所以在藉助Sunday算法進行詞頻統計的基礎上,還須要進行一些人工的篩選,這也是本文的一項重要工做。
在獲得由高頻字詞組成的特徵庫後,要進行更精細化的篩選。目標是將輸入的古詩文分紅4類,所以特徵詞的選擇標準應與該特徵詞對4種類型古詩文本的區分表示度相關。有些字詞雖然出現頻率高,但對於分類而言用處不大。按照愛情、憂國憂民、山水田園、哲理詩的順序,從4類詩中各選取一句話:「願得一心人,白頭不相離」「秦時明月漢時關,萬里長征人未還」「澗戶寂無人,紛紛開且落」「人生得意須盡歡,莫使金樽空對月」。若直接將文本的出現頻次做爲文本分類的特徵輸入,會發現4類詩中均出現了「人」字,而「月」字則出現了兩次。「人」和「月」看起來彷佛是很重要的兩個特徵,但事實上,這兩個詞是比較常見的、不具有區分能力的詞,不少詩篇會用到,所以不能單純地選取文本的詞頻來反映詩的特徵,而諸如「白頭」「長征」「澗戶」「金樽」等僅出現一次的詞反而更能反映其類別特徵。所以,使用詞頻-逆文本頻率(term frequency–inverse document frequency,TF-IDF)方法對其進行向量表示。
設愛情類、山水田園類、憂國憂民類、哲理類古詩分別對應類別一、類別二、類別三、類別4,每種類別下對應的篇數分別爲N一、N二、N三、N4,第i類下第j篇古詩文包含的漢字總數目爲ni,j,特徵詞t在該篇詩文中出現次數爲nt,i,j(i=1,2,3,4,j=1,2,…,Ni),則特徵詞t在第i類文本中的詞頻TFt,i爲:
TFt,i表示特徵詞t在第i類文本中的出現率,同時也是對詞數的歸一化,以免其偏向更長的文本文件。逆文本頻率(IDF)是對某個特徵詞的「廣泛重要性」的度量。設全部文本中包含特徵詞t的篇數爲DFt,全部文本數量爲N=N1+N2+N3+N4,則特徵詞t的IDFt爲:
所以,特徵項t的圖片表示一個1×4的向量:
篩選標準是向量圖片的標準差圖片:
較大的特徵詞對特定類型的古詩文有更強的表示能力。該作法的主要思想是:若是一個詞在某一類文本中出現頻率很高,而在全部文本中出現頻率卻不高,那麼該詞對於這類文本就具備很強的表明性和區分度,反之亦然。所以能夠過濾一些常見的詞語,保留重要的詞語,從而實現特徵詞的精細化提取。
下一步須要將最終篩選出的特徵詞進行向量化表示。現有的古詩文本分類研究多采用TF-IDF方法進行特徵詞的向量化表示,而且取得了90%以上的準確率。詞嵌入(word embedding)表示被提出後,文本分類問題逐漸向基於詞嵌入表示或詞向量的方法展開研究,如以前基於卷積神經網絡(convolutional neural network, CNN)的文本分類方法以及近期基於Transformer的文本分類方法。本文對如下兩類方法進行了融合,TF-IDF表示方法具備更強的可解釋性,而且在古詩文分類領域使用時間較長,而詞嵌入表示方法則在近年來被普遍應用於天然語言處理領域,藉助深度學習模型強大的性能,其表示效果獲得了普遍的承認。
藉助古文、白話文識別任務來完成特徵詞嵌入表示。與古詩詞主題分類不一樣,古文、白話文識別任務的數據集更加方便易得,且標籤也更易標註。採用連續詞袋(continuous bag-of-words,CBOW)模型將特徵詞轉化爲1×10 0的向量,並取其中的5個維度進行可視化,如圖2所示。
圖2 基於CBOW模型的古詩文特徵詞向量可視化
從圖2能夠看到,位置相近、大小相近、顏色相近的特徵詞具備更加相近的含義。設由CBOW模型獲得的特徵詞t的詞向量爲圖片,則特徵詞t的最終表示向量爲:
其中,圖片爲圖片向量的標準差。最終獲得的詞向量圖片不只包含特徵詞的語義信息,同時也包含該特徵詞對分類任務的重要度評價,在天然語言處理領域的不少研究中,有將詞頻-逆文本頻率信息做爲權重進而構造詞典的範例。所以將結合了TF-IDF方法與CBOW方法獲得的詞向量圖片做爲最終的特徵詞表示結果。
3 自適應特徵譜神經網絡的構造
因爲古文的句式、格式、表達方式都有別於現代文,且單音節詞佔多數,一篇古文包含的特徵詞數量繁多,若是使用傳統的神經網絡模型進行分類,計算規模將很是龐大。爲了使算法能夠更方便地搭載於手機、學習機等終端設備之上,進而使得基於該算法的軟件成爲普遍的學習平臺,除了分類準確率以外,對內存佔用、運行速度也有必定的要求。同時,爲了知足教育大數據、輔助學習軟件的須要,應在必定程度上對最終的分類結果進行解釋,或者對特徵選擇進行必定程度的可視化。所以,筆者設計了自適應特徵譜神經網絡,它能夠對衆多特徵詞進行篩選,自適應地造成對分類最有意義的特徵譜,然後只需在輸入的古詩文中進行檢索,將特徵譜中對應的特徵詞提取出來,並乘以對應權重,而後將結果輸入後續神經網絡,便可獲得分類結果。
特徵是對數據內在規律的反映,而對特徵之間相互關係的理解與昇華則是文本大數據語義理解的重要手段。本文提出的自適應特徵譜神經網絡將特徵詞之間的相互關係融合在拉普拉斯矩陣中。拉普拉斯矩陣是一種圖的矩陣表示形式,描述了圖中各節點之間的關係。文本分類任務通常是經過對不一樣特徵的相互耦合來完成的,所以,對特徵與特徵之間關係的描述正是其所須要的。下面將拉普拉斯矩陣的一部分做爲神經網絡的輸入層。
爲了獲得拉普拉斯矩陣L,首先須要計算各特徵項的類似度矩陣A,其中Ai,j =cos(t i,t j),這裏採用餘弦類似度來表徵特徵項ti和特徵項tj的類似度。進而能夠構建對角矩陣D,其中對角元素Dii爲:
則拉普拉斯矩陣L可表示爲:
因爲拉普拉斯矩陣是對稱矩陣,所以只需將其上三角部分取出做爲拉普拉斯層便可。
接下來構造自適應特徵譜神網絡的核心結構——自適應特徵譜層。它由拉普拉斯層通過全鏈接網絡(全鏈接網絡就是層與層之間的計算過程,即把前一層與後一層的節點所有相連)獲得。總體的網絡結構如圖3所示。
圖3展現了自適應特徵譜神經網絡的訓練過程。首先,拉普拉斯層記載着特徵項之間的 所有關係,後接一個全鏈接網絡,旨在輸出最優的特徵譜,後續的神經網絡結構將以該特徵譜爲基礎完成文本分類任務。設特徵庫中有n個特徵項,這裏設定在特徵譜中只保留m個特徵項(m<n),使得神經網絡留下對分類最有用的特徵。若是前期負責生成特徵譜的網絡工做效果不佳,將致使後續文本分類效果不佳,所以對偏差函數作反向傳播(back propagation,BP),既調整了分類網絡,也調整了特徵生成網絡。這就解決了前文提到的分類器與特徵選擇工做分離而致使效率不高的問題,所以稱之爲「自適應特徵譜」。爲了緩解訓練過程當中的過擬合問題,在該全鏈接網絡中進行了Dropout操做,以減小特徵檢測器(神經元節點)間的相互做用,達到正則化的效果,本文將Dropout比率設置爲0.5。
圖3 自適應特徵譜神經網絡結構
此外,特徵譜層還減少了特徵數量,下降了對算力的損耗。所以本文提出的自適應特徵譜神經網絡算法適合處理複雜的文本分類問題,即便輸入海量的數據,運算量也不會過大,這是由於要求特徵譜層只能保留必定量的、對分類最有用的特徵,對分類最有用的特徵並不是像傳統方法那樣由人爲因素決定,而是徹底經過大量數據自主訓練獲得的。自適應特徵譜神經網絡算法的分類準確率會隨着輸入特徵的增多而提升。
完成神經網絡的訓練後,獲得了現階段對分類最有意義的特徵譜,被稱爲「最優特徵譜」。因爲拉普拉斯層與自適應特徵譜層之間的網絡結構已經完成了根據分類任務篩選特徵、給出相應權重的任務,所以在測試或應用時,只保留最優特徵譜及後續的輸入層、隱藏層、輸出層結構,這大大縮短了實際應用時的響應時間。以最優特徵譜爲基礎,對每篇古詩文對應的表示向量作以下操做:用Sunday算法在輸入文本中搜索最終保留的m個特徵詞,假設檢索到了k個特徵詞(k≤m),則對這k個特徵詞對應的特徵譜中的數值進行歸一化,以後分別乘以這k個特徵詞的詞向量,最終再對這k個詞向量求和。這種方法的本質是以k個特徵詞在最優特徵譜中對應的數值爲基礎,對其對應的詞向量進行加權平均,最終獲得能夠表示輸入文本的文本向量。藉助這種方法,該模型的輸入維度始終能夠保持爲詞向量的維度,運行速度、內存佔用並不會隨着輸入文本長度的增長而發生明顯變化。
4 實驗結果與改進空間
本文所用的古詩文數據均來自「古詩文網」,該網站將全部古詩都進行了分類,本文將該網站對古詩的分類類別做爲每首古詩對應的標籤,並輸入本文設計的自適應特徵譜神經網絡進行訓練,獲得最終的結果。
爲了驗證本文提出的自適應特徵譜神經網絡算法的準確率,進行了兩次對比實驗,使用的是目前對古詩文本分類準確率很高的兩種方法:基於譜聚類算法的特徵聚類+加權最近鄰分類器;基於k-means算法的特徵聚類+加權最近鄰分類器。兩種方法都以預先選定的特徵庫爲基礎,對其中的特徵項進行聚類分析。其出發點在於每一個特徵對每一類型文本的表示能力不一樣,例如:出現「鴛」字的文本有較大機率是以愛情爲主題的;「田」「園」等字則對山水田園類文本區分度較高;「燭」字對愛情類、哲理類文本都有不錯的表示度。將不一樣特徵詞對不一樣類型文本的表示能力可視化,愛情類、山水田園類文本的表示能力可視化分別如圖四、圖5所示。
圖4 不一樣特徵詞對愛情類文本的表示能力可視化
圖5 不一樣特徵詞對山水田園類文本的表示能力可視化
圖6表示同時將400個特徵詞對4個維度的信息進行了可視化:愛情類爲豎軸,山水田園類爲橫軸,在座標軸上的投影值越大表示對該類型文本的表示能力越強;圓圈的大小表示該特徵詞對憂國憂民類古詩文本的表示能力,顏色深淺表示該特徵詞對哲理類古詩文本的表示能力。
圖6 400個特徵詞對4個類型文本的表示能力可視化總覽
兩種聚類算法都是根據每一個特徵項對不一樣類別文本表示能力的強弱,將特徵項分爲4類,再將聚類結果交給後續的分類器,使用加權最近鄰算法完成對文本的分類。
不一樣聚類算法的聚類結果是不一樣的,圖七、圖8分別爲k-means算法聚類結果中的憂國憂民類、愛情類文本特徵,圖九、圖10分別爲譜聚類算法聚類結果中的哲理類、山水田園類文本特徵。
圖7 k-means算法聚類結果:憂國憂民類文本特徵
圖8 k-means算法聚類結果:愛情類文本特徵
圖9 譜聚類算法聚類結果:哲理類文本特徵
圖10 譜聚類算法聚類結果:山水田園類文本特徵
從聚類算法獲得的結果能夠看出,不一樣類別的特徵詞基本是符合常識的,但仍然有許多字是「模棱兩可」的。並且聚類一旦完成,其結果沒法根據後續分類器的表現隨時進行修改和調整,這是此類算法的弊病。而本文提出的自適應特徵譜神經網絡則可以消除相似的「斷層」現象,特徵譜結構隨時服務於分類器結構,並在訓練的過程當中不斷更新,結果天然更加理想。
將1 500篇古詩文做爲訓練集,將500篇古詩文做爲測試集(每類125篇),分別使用譜聚類算法+加權最近鄰分類器、k-means算法+加權最近鄰分類器、普通的含有兩層隱藏層的反向傳播神經網絡和本文提出的自適應特徵譜神經網絡4種算法對4類古詩文本進行分類測試,獲得的結果見表1。
哲理類詩文相比其餘類型更難分類,並且它們覆蓋的範圍自己也有交疊。例如,不少田園歸隱詩自己就有看破世事、論述本身的人生思考、抒發哲理的部分在內,所以哲理類古詩文的分類準確率通常低於其餘3種類型。
從表1能夠看到,BP神經網絡對古詩文本的分類準確率明顯高於各類聚類算法+傳統分類器的組合,而本文提出的自適應特徵譜神經網絡可使分類準確率上升到99%,在某些特定類別上甚至能夠達到不出錯的程度(固然,這和本文測試集數量太少有關,這也是將來改進的方向)。
5 性能分析及應用
本文提出的自適應特徵譜神經網絡的性能優點在於它能夠自適應地選擇最有助於分類任務的特徵詞。經過特徵詞向量構建的拉普拉斯層記錄不一樣特徵詞之間的相互關係,然後邊的全鏈接網絡則是對這種特徵詞之間相互關係的整合。該網絡結構對不一樣輸入文本的文字組合,賦予的特徵詞權重各不相同,特徵詞將以該權重爲基礎,參與下一階段的運算,最終獲得該文本的主題分類結果。當分類錯誤時,偏差會經過總體的網絡結構進行反向傳播,並追溯到此前賦予特徵詞的權重,而這些特徵詞的權重以及網絡結構中的其餘參數則會經過梯度降低算法進行更新,並參與下一個循環的計算。神經網絡模型就是以此來完成對特徵詞權重的學習的,該學習過程是一種「自適應」的調整過程。
在完成大量的迭代計算以後,自適應特徵譜神經網絡獲得了充分的訓練。訓練完成的自適應特徵譜神經網絡會對不一樣的輸入文本提取不一樣的特徵詞,併爲其分配不一樣的權重。以古詩文《孔雀東南飛》爲例,自適應特徵譜神經網絡根據不一樣文字的組合方式,對文中有助於主題分類的特徵詞進行提取,併爲其分配了適當的權重,該權重通過後續網絡結構的運算便可獲得最終的分類結果。按照文本中不一樣特徵詞權重的數值,生成《孔雀東南飛》的專屬特徵詞詞雲圖,如圖11所示。特徵詞在詞雲圖中的大小與其被自適應特徵譜神經網絡賦予的權重成正比。
從圖11能夠看出,自適應特徵譜神經網絡爲《孔雀東南飛》中的「姻」「緣」「情」「相」「望」等字賦予了較大的權重,這些特徵詞與「愛情」的聯繫確實較爲密切,符合人們的平常認知。然而一樣和「愛情」關係密切的「妻」「女」「君」「愁」「怨」「淚」「嫁」等字則未被賦予太大的權重,這說明自適應特徵譜神經網絡認爲這些字在文中的出現形式和組合方式對「愛情」這一主題的表明性不強,或者這些字的出現方式與家國類、哲理類等其餘類型的古詩文相似,所以只被賦予了中等大小的權重。而諸如「安」「山」「水」等字,自適應特徵譜神經網絡認爲其與「愛情」並沒有明顯關係,所以對其賦予的權重極小,這也與人們的平常認知相符。因而可知,自適應特徵譜神經網絡確實能夠自適應地提取有助於分類的特徵。
圖11 《孔雀東南飛》特徵詞詞雲圖
自適應地提取特徵能夠避免在分類時侷限於固定的特徵詞,它能夠根據文本中不一樣文字之間的組合關係進行適當的調整,即便對於同一類型的古詩文,特徵詞的選取也有很大的分別。本文在愛情類、哲理類、山水田園類3類古詩文中各選取了4篇,並根據自適應特徵譜神經網絡給出的特徵詞權重分別繪製了詞雲圖,如圖12所示。這12個詞雲圖分別由3個類別的12首不一樣的古詩詞生成,從這12個詞雲圖能夠看出,對於不一樣的古詩詞文原本說,自適應特徵譜神經網絡關注的特徵詞也並不相同,即便對於同一類型的古詩文,自適應特徵譜神經網絡給出的特徵詞權重也各不相同。除此以外,因爲自適應特徵譜神經網絡提取特徵的能力是在數據集中訓練得到的,所以隨着數據量和算力的增加,自適應特徵譜神經網絡對特徵的提取能力以及對文本的分類能力也會顯著提高。
圖12 自適應特徵譜神經網絡對不一樣古詩文本提取特徵詞所生成的詞雲圖
目前,筆者已經以自適應特徵譜神經網絡算法爲基礎,與相關科技公司合做,開發了一款古詩文主題分類App,如圖13所示。當用戶在文本框中輸入古詩文內容後,下方會顯示該古詩文所屬不一樣類別的機率柱狀圖,同時會輸出一張由自適應特徵譜神經網絡給出的特徵詞權重所生成的詞雲圖做爲分類依據。因而可知,該算法具備必定的創新性,而且在市場上具備廣闊的應用前景。
圖13 基於自適應特徵譜神經網絡開發的古詩文主題分類App
6 結束語
本文提出的自適應特徵譜神經網絡的設計靈感來源於譜聚類算法,然而在完成網絡結構的設計以後,筆者發現其結構和卷積神經網絡有些類似之處,例如,用卷積層、池化層處理圖像數據的初衷是將輸入的圖像數據降維,並提取合適的特徵,該特徵並不是人工提取,而是根據所要完成的任務以及偏差狀況自動提取的;而自適應特徵譜層也是爲了將輸入的表示向量降維,刪除其中不重要的特徵,選取合適的特徵,這種選取不受人爲干預,而是將訓練過程當中產生的偏差進行反向傳播,自適應地進行調整。卷積神經網絡很是適用於處理圖像類型的數據,而本文提出的自適應特徵譜神經網絡則很是適用於處理文本數據。所以,本文提出的網絡結構具備很是廣闊的應用前景。
此外,使用本文提出的自適應特徵譜神經網絡進行特徵提取以及分類獲得的結果具備必定的可解釋性,且在實際應用時響應速度快、內存佔用小,所以很是適合用於輔助教育平臺的開發,基於該算法開發的古詩文主題分類App受到了用戶的一致好評。用戶在使用該App時,無疑也提供了海量的訓練樣本,以此爲基礎,筆者能夠繼續優化該模型,達到更高的分類精度。以「更大的數據」驅動「更好的深度學習模型」正是後期優化的方向。
做者簡介
王一峯(1995-),男,哈爾濱工業大學(深圳)理學院碩士生,主要研究方向爲天然語言處理、計算機視覺、智能控制、機器人運動、慣性制導以及機器學習的數學原理 。
孫麗茹(1994-),女,哈爾濱工業大學(深圳)理學院碩士生,主要研究方向爲天然語言處理、教育大數據和機器學習中的聚類算法 。
崔良樂(1978-),男,哈爾濱工業大學(深圳)理學院講師,主要研究方向爲西方美學、中國近現代思想文化傳播、文化研究和與在線學習相關的教育大數據 。
趙毅(1977-),男,博士,哈爾濱工業大學(深圳)理學院教授、博士生導師,哈爾濱工業大學(深圳)應用數學研究中心主任,主要研究方向爲非線性時間序列分析、動力系統、複雜網絡、生物數學和數據科學 。