在2019年深度學習開發者秋季峯會上,百度對外發布飛槳圖學習框架PGL v1.0正式版,歷經5個月的版本迭代,PGL再度升級,發佈v1.1版本,帶來了最新的算法突破、全面的工業級圖學習框架能力以及工業級的實踐案例。下面咱們逐一揭祕升級點。c++
下載安裝命令
## CPU版本安裝命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle
## GPU版本安裝命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu
最新算法突破:結合語義與結構信息的圖神經網絡模型ERNIESage算法
在不少工業應用中,每每出現以下圖所示的一種特殊的圖:Text Graph。顧名思義,圖的節點屬性由文本構成,而邊的構建提供告終構信息。如搜索場景下的Text Graph,節點可由搜索詞、網頁標題、網頁正文來表達,用戶反饋和超鏈信息則可構成邊關係。網絡
PGL團隊提出ERNIESage模型同時建模文本語義與圖結構信息,有效提高Text Graph的應用效果。其中ERNIE是百度推出的基於知識加強的持續學習語義理解框架,在中英文16個任務上超越業內同類最優模型,以歷史上首次超越90大關的成績登頂天然語言處理領域最權威的GLUE評測榜單,並在最近SemEval 2020上斬獲5項世界冠軍。框架
ERNIESage是ERNIE與GraphSAGE碰撞的結果,是ERNIE SAmple aggreGatE的簡稱,它的結構以下圖所示,主要思想是經過ERNIE做爲聚合函數(Aggregators),建模自身節點和鄰居節點的語義與結構關係。函數
ERNIESage對於文本的建模是構建在鄰居聚合的階段,中心節點文本會與全部鄰居節點文本進行拼接;而後經過預訓練的ERNIE模型進行消息匯聚,捕捉中心節點以及鄰居節點之間的相互關係;最後使用ERNIESage搭配獨特的鄰居互相看不見的Attention Mask和獨立的Position Embedding體系,就能夠輕鬆構建TextGraph中句子之間以及詞之間的關係。性能
單純的ID特徵的GraphSAGE只能建模結構信息,單獨的ERNIE語義模型只能建模語義信息。在PGL的框架驅動下,咱們能夠輕鬆結合兩者,經過ERNIE捕捉語義信息,而且利用GraphSAGE補充結構特徵,經過節點的鄰居補充更有用的信息。下圖爲百度內部某個推薦系統的Text Graph實際場景,ERNIESage經過結合文本與圖結構信息,能夠取得比獨立應用ERNIE和GraphSAGE更好的效果。學習
得益於PGL的靈活易用特性,ERNIESage能在PGL的Message Passing範式下快速實現,下面介紹PGL v1.1版本的其餘亮點特性。優化
全面的工業級圖學習框架能力:人工智能
引入多領域模型、領銜工業應用、賦能科研創新url
下圖是PGL v1.1的框架圖,黃色與橙色部分爲v1.1版本更新內容,其中橙色爲自研的模型算法。
- 自研創新模型,包括結合語義與結構信息的圖神經網絡模型ERNIESage、多元路徑遊走算法Multi-Metapath2vec++,以及基於語義索引技術的GNN-Index,這些創新算法極大地提高了百度內外多個工業級應用效果;
- 完備框架算法庫,總模型數擴充至23個。其中新增知識圖譜算法庫PGL-KE,提供業界領先的知識圖譜算法,如TransE、TransR、RotatE等,全面支持知識圖譜類算法調研;
- 賦能科研創新,適配圖學習通用性能評價基準數據集 OGB(Open Graph Benchmark)。提供統一數據與模型接口,開發者可使用快速接入OGB,復現SOTA效果;
- 豐富框架計算能力,新增基於Lod Tensor的Graph快速算子,如Graph Batch、Graph Pool以及Graph Norm,多圖聯合訓練更加方便靈活。
工業級實踐案例揭祕:PGL如何掀起圖算法熱潮
得益於PGL創新性自研算法加持,以及框架的全新升級,PGL支持的百度內外部業務也是遍地開花,全面覆蓋搜索、商業廣告、信息流、金融風控、貼吧、用戶畫像、智能地圖等相關業務,可支持百億巨圖場景。下面是一些經典工業級案例介紹。
- 在信息流興趣搜索推薦場景下,構建信息流文章與搜索詞之間的複雜異構圖關係網絡,利用PGL異構圖神經網絡算法挖掘用戶潛在興趣點。在用戶閱讀文章後,提供更多用戶感興趣的搜索詞,推薦搜索詞點展比大幅提高近90%,大大地提高了信息流產品的用戶體驗;
- 在貼吧推薦場景下,經過多元路徑(Multi MetaPath)來表徵用戶、貼吧和帖子的異構圖關係,經過優化元路徑範式,自動匹配同源負樣本,克服單條MetaPath信息表徵不全面的問題,總點擊提高1.89%,點展比提高0.93%,縮短了用戶與感興趣貼吧的路徑;
- 在商業廣告場景下,構建用戶搜索詞與廣告的圖網絡。結合PGL自研模型ERNIESage,聚合語義以及結構信息,提高了觸發模型的泛化能力,取得較大的經濟效益;
- 在度小滿金融風控場景下,經過構建用戶圖網絡,結合PGL靈活定製風控圖神經網絡,快速挖掘具備逾期風險的用戶。基於GNN的金融風控模型,KS指標絕對提高1.6,AUC指標絕對提高2%,有效地提高了優質客羣人數,下降了貸款風險而且大幅度減小審覈人力。
綜合來看,圖學習框架PGL依託於飛槳再度升級,帶來更多的自研算法、更加全面的框架能力。圖學習做爲通用人工智能算法之一,勢必成爲這個時代新的基礎設施,賦能各行各業,助燃智能經濟騰飛。這僅是圖學習熱潮的開始,但願有志之士加入PGL,一塊兒共建將來。
PGL代碼徹底開源,歡迎小夥伴們使用。若是您在使用過程當中有任何疑惑或創新嘗試,歡迎聯繫咱們,反饋您的意見或與其餘小夥伴分享您的成果。
下載安裝命令
## CPU版本安裝命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle
## GPU版本安裝命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu
>> 訪問 PaddlePaddle 官網,瞭解更多相關內容。