1.思路:
(1)模式識別:結合uc表的title和job_title字段探索職能結構模式;
(2)識別職能:根據識別後的模式實現title的識別;
(3)識別方法改進調優:因爲識別後的結果中仍可能存在過於細節噪音信息(如:java支付金融業務架構師),故使用title關鍵字構建trie森林結構,實現title的分層(如:001 001003 001003001 000000000001 java遊戲架構 師——技術 架構師 java 遊戲),既能提升查詢效率,也能實現信息過濾。
2.方法:
2.1模式識別:
(1)清除垃圾信息:如:'謝謝', '薩芬', '看看','知道'等;
(2)職級評定:分爲技術類職級和管理類職級,技術類以管理等級進行區分(如:總監、經理),技術類以技術掌握程度進行區分(如:資深、實習);
(3)title由skill、suffix、level和other4個字段構成,對源數據進行聚類,獲得出現頻率高的suffix和level構建後綴和職級字典;
(4)構建包含具備分類意義的非技能詞(如:開發)的泛技能詞詞典;
(4)使用泛技能詞字典、suffix字典和level字典對源數據進行標註;
(5)識別title的組成模式(如:skills + others + suffix)。
2.2識別職能:
(1)處理分詞細節,(如:工程師——工程|師,教師——教|師)、英文技能詞混寫(如:javac++開發工程師);
(2)管理類職級統一爲管理(如:銷售總監——銷售管理(level:總監));
(3)依據模式識別職能。
存在的問題:
(1)others中的噪音太多,使職能極具細化,泛化能力太弱;
(2)只能知道是否匹配,但爲何不匹配,不匹配到什麼程度無從可知;
(3)該方法每次都需遍歷整個字符串識別模式,而不少時候優先匹配某些關鍵詞就能直接得出不匹配的結果(如:銷售和工程)。
解決辦法:
主要是如何去噪、可解釋性和匹配效率三個問題。trie樹能夠解決可解釋性和匹配效率兩個問題,對於去噪問題能夠對trie作一個變種。首先樹的非葉節點再也不是職能中全部出現的單詞或詞組,而是出現的關鍵詞(如:java支付金融業務架構師——架構、金融、支付、架構師);其次,取消葉節點,變成沒有父節點的散節點,用於存在職能中出現的技能或方法對象(如:java),由於技能跟職能的類別不具備一一對應的關係;最後,諸如技術、銷售等職能的大類別並無什麼共性,故將樹改成森林。
2.3識別方法改進:
(1)進一步數據清洗(刪除多餘空格、合併名稱相同但職級不一樣的職能);
(2)構建trie森林結構:
每棵樹的根節點(3位數表示):職能類別統稱(可能爲非職能中的特徵詞),如:技術(001)、市場(002) 、銷售(003)等。
每棵樹的 一級節點(6位數表示) :職能關鍵類別(必定爲職能中出現的特徵詞),用於作第一步匹配,如:工程(001001)、設計(001002)等。
每棵樹的 二級節點(9位數表示): 職能詳細類別(必定爲職能中出現的特徵詞),用於作第二步匹配,如:前端(001001002)、測試(001001003)
散節點(無父節點的點):最後一層是技能節點,也就是職能中出現的技能節點或泛技能節點(如:java開發工程師中的java),之因此稱爲散節點是由於技能並不徹底隸屬於任何一種大職能(如「3dmax建築模型師」既屬於技術中的設計類,也屬於建造類的設計類),故沒有父節點;
(3)使用樣例;
假設該結構用於比較B端職位名稱和C端的title名稱
首先匹配B、C的一級節點(職能中出現的最高層次的關鍵詞),若是一級節點不一樣則直接爲不一樣;
若是一級節點不一樣而根節點相同,那麼多是未識別的正確的一級節點;
若是一級節點相同且二級節點相同,那麼兩個職能在主要方向是相同的;
若是一級節點相同而二級節點不一樣,說明二者不是同一個職能,但都是一個大類型的;
若是一級節點相同、二級節點相同、散節點也相同,那麼兩個職能徹底同樣;
若是一級節點相同、二級節點相同、散節點不一樣,那麼兩個職能類型同樣但用的技能不同。
例子:B端:3dmax場景設計師、C端:3dmax模型設計師
首先匹配「設計(001002)」,二者相同,說明兩個職能一級節點相同(都屬於設計類);
其次匹配「場景(001002022)」和「模型(001002016)」,二者不一樣,說明兩個職能不是同一個職能;
最後匹配「3dmax(000000000029)」,說明使用的技能是相同的
結論:使用同一種技能的兩個不一樣的技術類的設計師。
3.優缺點:
優勢:無需匹配全部的字符便可過濾不匹配的狀況;
可解釋性更強,能夠清楚兩個職位不一樣的緣由;
能夠有效過濾出現的過於細節的噪音(linux後臺服務器c++工程師——技術、工程、後臺開發、linux、c++)。
缺點:trie森林結構更新量龐大。
4.成果:
經過人工、聚合等方法,現已構建11個根節點、31個一級節點、539個二級節點、2151個散節點,共識別去噪後的7646個不一樣的職能。前端